Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence

From MaRDI portal

Publication:6161312

Jump to:navigation, search

DOI10.1137/21m1456789arXiv2105.11066MaRDI QIDQ6161312

Jason D. Lee, Yuxin Chen, Yuejie Chi, Shicong Cen, Unnamed Author, Unnamed Author

Publication date: 27 June 2023

Published in: SIAM Journal on Optimization (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/2105.11066

zbMATH Keywords

regularization Bregman divergence policy optimization policy mirror descent

Mathematics Subject Classification ID

Computational learning theory (68Q32) Analysis of algorithms and problem complexity (68Q25) Nonconvex programming, global optimization (90C26)

Related Items (3)

Approximate Newton Policy Gradient Algorithms ⋮ Softmax policy gradient methods can take exponential time to converge ⋮ Geometry and convergence of natural policy gradient methods

Cites Work

This page was built for publication: Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6161312&oldid=35634962"