Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence

From MaRDI portal

Revision as of 06:48, 10 July 2024 by Import240710060729 (talk | contribs) (Created automatically from import240710060729)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Publication:6161312

Jump to:navigation, search

DOI10.1137/21M1456789arXiv2105.11066MaRDI QIDQ6161312

Jason D. Lee, Yuxin Chen, Yuejie Chi, Shicong Cen, Unnamed Author, Unnamed Author

Publication date: 27 June 2023

Published in: SIAM Journal on Optimization (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/2105.11066

zbMATH Keywords

regularization Bregman divergence policy optimization policy mirror descent

Mathematics Subject Classification ID

Computational learning theory (68Q32) Analysis of algorithms and problem complexity (68Q25) Nonconvex programming, global optimization (90C26)

Related Items (5)

Approximate Newton Policy Gradient Algorithms ⋮ Softmax policy gradient methods can take exponential time to converge ⋮ Geometry and convergence of natural policy gradient methods ⋮ Global convergence of natural policy gradient with Hessian-aided momentum variance reduction ⋮ Policy mirror descent inherently explores action space

Cites Work

This page was built for publication: Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6161312&oldid=35634962"