Regret Analysis of a Markov Policy Gradient Algorithm for Multiarm Bandits

From MaRDI portal

Revision as of 07:23, 10 July 2024 by Import240710060729 (talk | contribs) (Created automatically from import240710060729)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Publication:6121638

Jump to:navigation, search

DOI10.1287/moor.2022.1311arXiv2007.10229OpenAlexW3042983647WikidataQ114967780 ScholiaQ114967780MaRDI QIDQ6121638

Denis Denisov, N. S. Walton

Publication date: 27 February 2024

Published in: Mathematics of Operations Research (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/2007.10229

zbMATH Keywords

Markov chains regret policy gradient multiarm bandit Foster-Lyapunov

Mathematics Subject Classification ID

Inference from stochastic processes and prediction (62M20) Discrete-time Markov processes on general state spaces (60J05) Stochastic approximation (62L20)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6121638&oldid=35574234"