Analysis and improvement of policy gradient estimation

From MaRDI portal

Publication:448295

Jump to:navigation, search

DOI10.1016/j.neunet.2011.09.005zbMath1245.68165OpenAlexW2148053762WikidataQ51513131 ScholiaQ51513131MaRDI QIDQ448295

Tingting Zhao, Gang Niu, Hirotaka Hachiya, Masashi Sugiyama

Publication date: 30 August 2012

Published in: Neural Networks (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1016/j.neunet.2011.09.005

zbMATH Keywords

variance reduction reinforcement learning policy gradients policy gradients with parameter-based exploration

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05)

Related Items (7)

Model-based policy gradients with parameter-based exploration by least-squares conditional density estimation ⋮ A unified algorithm framework for mean-variance optimization in discounted Markov decision processes ⋮ Smoothing policies and safe policy gradients ⋮ Efficient Sample Reuse in Policy Gradients with Parameter-Based Exploration ⋮ Unnamed Item ⋮ Model-based reinforcement learning with dimension reduction ⋮ An ODE method to prove the geometric convergence of adaptive stochastic algorithms

Cites Work

This page was built for publication: Analysis and improvement of policy gradient estimation

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:448295&oldid=12325253"