Variance-penalized Markov decision processes: dynamic programming and reinforcement learning techniques

From MaRDI portal

Publication:5166474

Jump to:navigation, search

DOI10.1080/03081079.2014.883387zbMath1295.90101OpenAlexW2024928738MaRDI QIDQ5166474

Abhijit Gosavi

Publication date: 27 June 2014

Published in: International Journal of General Systems (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1080/03081079.2014.883387

zbMATH Keywords

dynamic programming Bellman equation reinforcement learning risk penalties variance-penalized MDPs

Mathematics Subject Classification ID

Dynamic programming (90C39) Applications of Markov chains and discrete-time Markov processes on general state spaces (social mobility, learning theory, industrial processes, etc.) (60J20) Markov and semi-Markov decision processes (90C40)

Related Items (5)

A unified algorithm framework for mean-variance optimization in discounted Markov decision processes ⋮ Approximate solutions to constrained risk-sensitive Markov decision processes ⋮ A Reinforcement Learning Neural Network for Robotic Manipulator Control ⋮ A performance-centred approach to optimising maintenance of complex systems ⋮ Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement Learning

Cites Work

This page was built for publication: Variance-penalized Markov decision processes: dynamic programming and reinforcement learning techniques

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5166474&oldid=19731495"