Regret Analysis of a Markov Policy Gradient Algorithm for Multiarm Bandits

From MaRDI portal

Publication:6121638

Jump to:navigation, search

DOI10.1287/moor.2022.1311arXiv2007.10229WikidataQ114967780 ScholiaQ114967780MaRDI QIDQ6121638

Denis Denisov, N. S. Walton

Publication date: 27 February 2024

Published in: Mathematics of Operations Research (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/2007.10229

zbMATH Keywords

Markov chains; regret; policy gradient; multiarm bandit; Foster-Lyapunov

Mathematics Subject Classification ID

62M20: Inference from stochastic processes and prediction

60J05: Discrete-time Markov processes on general state spaces

62L20: Stochastic approximation

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6121638&oldid=35574234"