On Finding Optimal Policies for Markov Decision Chains: A Unifying Framework for Mean-Variance-Tradeoffs

From MaRDI portal

Publication:4302596

Jump to:navigation, search

DOI10.1287/moor.19.2.434zbMath0842.90120OpenAlexW2098441552MaRDI QIDQ4302596

Ying Huang, Lodewijk C. M. Kallenberg

Publication date: 21 August 1994

Published in: Mathematics of Operations Research (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1287/moor.19.2.434

zbMATH Keywords

parametric linear programming finite state and action, discrete-time and single-period Markov decision chains stationary maximal average reward policies

Mathematics Subject Classification ID

Sensitivity, stability, parametric optimization (90C31) Markov and semi-Markov decision processes (90C40)

Related Items

A fifth bibliography of fractional programming^* ⋮ Markov Decision Problems Where Means Bound Variances ⋮ Finite-horizon variance penalised Markov decision processes ⋮ Survey of linear programming for standard and nonstandard Markovian control problems. Part I: Theory ⋮ On the total reward variance for continuous-time Markov reward chains ⋮ Constrained Multiagent Markov Decision Processes: a Taxonomy of Problems and Algorithms ⋮ Semi-Markov decision processes with variance minimization criterion ⋮ On mean reward variance in semi-Markov processes ⋮ Algorithmic aspects of mean-variance optimization in Markov decision processes

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:4302596&oldid=18239845"