The policy iteration algorithm for average reward Markov decision processes with general state space

DOI10.1109/9.650016zbMath0906.93063WikidataQ114991401 ScholiaQ114991401MaRDI QIDQ4395828

Publication date: 12 August 1998

Published in: IEEE Transactions on Automatic Control (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1109/9.650016

zbMATH Keywords

optimal control; queueing networks; deterministic routing; controlled Markov chains; Howard's policy iteration algorithm

Mathematics Subject Classification ID

90B15: Stochastic network models in operations research

93E20: Optimal stochastic control

60K20: Applications of Markov renewal processes (reliability, queueing networks, etc.)

Related Items

Optimal Inventory Control with Jump Diffusion and Nonlinear Dynamics in the Demand, Potential-based least-squares policy iteration for a parameterized feedback control system, Weak convergence and fluid limits in optimal time-to-empty queueing control problems, Average control of Markov decision processes with Feller transition probabilities and general action spaces, Weakly coupled event triggered output feedback system in wireless networked control systems, The policy iteration algorithm for average continuous control of piecewise deterministic Markov processes, Stochastic control via direct comparison, Completion-of-squares: revisited and extended, Policy iteration for continuous-time average reward Markov decision processes in Polish spaces, Single sample path-based optimization of Markov chains, Approximate receding horizon approach for Markov decision processes: average reward case, Planning for the long run: programming with patient, Pareto responsive preferences, Coding and control for communication networks, A policy improvement method for constrained average Markov decision processes, Reliability by design in distributed power transmission networks, Dynamic load balancing in parallel queueing systems: stability and optimal control, Dynamic safety-stocks for asymptotic optimality in stochastic networks, A review of stochastic algorithms with continuous value function approximation and some new approximate policy iteration algorithms for multidimensional continuous applications