Modified Policy Iteration Algorithms for Discounted Markov Decision Problems

From MaRDI portal

Publication:4173218

Jump to:navigation, search

DOI10.1287/mnsc.24.11.1127zbMath0391.90093OpenAlexW2020609518WikidataQ56457004 ScholiaQ56457004MaRDI QIDQ4173218

Moon Chirl Shin, Martin L. Puterman

Publication date: 1978

Published in: Management Science (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1287/mnsc.24.11.1127

zbMATH Keywords

Computational Experiences Discounted Markov Decision Problems Policy Iteration Algorithm

Mathematics Subject Classification ID

Numerical mathematical programming methods (65K05) Minimax problems in mathematical programming (90C47)

Related Items

On integral generalized policy iteration for continuous-time linear quadratic regulations, Reward revision and the average reward Markov decision process, Adaptive policy-iteration and policy-value-iteration for discounted Markov decision processes, Design and evaluation of norm-aware agents based on normative Markov decision processes, Learning classifier systems: a survey, Generic rank-one corrections for value iteration in Markovian decision problems, Accelerated modified policy iteration algorithms for Markov decision processes, Unnamed Item, Complexity bounds for approximately solving discounted MDPs by value iterations, (Approximate) iterated successive approximations algorithm for sequential decision processes, Abstraction and approximate decision-theoretic planning., Dynamic programming and value-function approximation in sequential decision problems: error analysis and numerical results, Approximate dynamic programming for stochastic \(N\)-stage optimization with application to optimal consumption under uncertainty, A note on policy algorithms for discounted Markov decision problems, Markov decision processes, Unnamed Item, A semi-Lagrangian algorithm in policy space for hybrid optimal control problems, Modified policy iteration algorithms are not strongly polynomial for discounted dynamic programming, Stability and monotone convergence of generalised policy iteration for discrete-time linear quadratic regulations, Improved iterative computation of the expected discounted return in Markov and semi-Markov chains, Multi-step heuristic dynamic programming for optimal control of nonlinear discrete-time systems, Admission control in a two-class loss system with periodically varying parameters and abandonments, A \(K\)-step look-ahead analysis of value iteration algorithms for Markov decision processes, A method of bisection for discounted Markov decision problems, DYNAMIC CONTROL OF A SINGLE-SERVER SYSTEM WHEN JOBS CHANGE STATUS, Stochastic dynamic programming with factored representations, Applications of Markov chain approximation methods to optimal control problems in economics, Truncated policy iteration methods, A survey of solution techniques for the partially observed Markov decision process, Contingent planning under uncertainty via stochastic satisfiability

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:4173218&oldid=17997871"