An improved algorithm for solving communicating average reward Markov decision processes

From MaRDI portal

Publication:2638957

Jump to:navigation, search

DOI10.1007/BF02055583zbMath0717.90084OpenAlexW2002035237MaRDI QIDQ2638957

Moshe Haviv, Martin L. Puterman

Publication date: 1991

Published in: Annals of Operations Research (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1007/bf02055583

zbMATH Keywords

average reward criterion policy iteration algorithm communicating Markov decision processes multichain policies unichain policies

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40) Computational methods for problems pertaining to operations research and mathematical programming (90-08)

Related Items (4)

An effective numerical method for controlled routing in large trunk line networks ⋮ On some algorithms for limiting average Markov decision processes ⋮ Exact decomposition approaches for Markov decision processes: a survey ⋮ A decomposition algorithm for limiting average Markov decision problems.

Cites Work

This page was built for publication: An improved algorithm for solving communicating average reward Markov decision processes

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:2638957&oldid=15441838"