A General Theory of MultiArmed Bandit Processes with Constrained Arm Switches

From MaRDI portal

Publication:5020738

Jump to:navigation, search

DOI10.1137/19M1282386zbMath1483.90092arXiv1808.06314MaRDI QIDQ5020738

Xianyi Wu, Wenqing Bao, Xiaoqiang Cai

Publication date: 7 January 2022

Published in: SIAM Journal on Control and Optimization (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1808.06314

zbMATH Keywords

Gittins index stochastic adaptive control multiarmed bandit processes machine learning/reinforcement learning restricted stopping time

Mathematics Subject Classification ID

Stochastic programming (90C15) Markov and semi-Markov decision processes (90C40)

Related Items

Empirical Gittins index strategies with \(\varepsilon\)-explorations for multi-armed bandit problems

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5020738&oldid=19483594"