Bisimulation Metrics for Continuous Markov Decision Processes

From MaRDI portal

Publication:3225169

Jump to:navigation, search

DOI10.1137/10080484XzbMath1253.39018MaRDI QIDQ3225169

Prakash Panangaden, Doina Precup, Norm Ferns

Publication date: 15 March 2012

Published in: SIAM Journal on Computing (Search for Journal in Brave)

zbMATH Keywords

linear programming; Markov decision process; reinforcement learning; bisimulation; metrics; continuous; statistical sampling

Mathematics Subject Classification ID

60J25: Continuous-time Markov processes on general state spaces

91G80: Financial applications of other theories

37H10: Generation, random and stochastic difference and differential equations

39A30: Stability theory for difference equations

39A50: Stochastic difference equations

Related Items

A pseudometric in supervisory control of probabilistic discrete event systems, Adaptive aggregation for reinforcement learning in average reward Markov decision processes, Weak bisimulation is sound and complete for pCTL\(^*\), Pseudometrics for State Aggregation in Average Reward Markov Decision Processes

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:3225169&oldid=16372425"