Optimal Exploration–Exploitation in a Multi-armed Bandit Problem with Non-stationary Rewards

From MaRDI portal

Publication:5113912

Jump to:navigation, search

DOI10.1287/stsy.2019.0033zbMath1447.93371arXiv1405.3316OpenAlexW2962821829WikidataQ126855665 ScholiaQ126855665MaRDI QIDQ5113912

Yonatan Gur, Assaf J. Zeevi, Omar Besbes

Publication date: 18 June 2020

Published in: Stochastic Systems (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1405.3316

zbMATH Keywords

minimax regret nonstationary multi-armed bandit dynamic oracle exploration/exploitation dynamic regret

Mathematics Subject Classification ID

Optimal stochastic control (93E20)

Related Items (7)

Robust sequential design for piecewise-stationary multi-armed bandit problem in the presence of outliers ⋮ Fully probabilistic design of strategies with estimator ⋮ Setting Reserve Prices in Second-Price Auctions with Unobserved Bids ⋮ Lipschitzness is all you need to tame off-policy generative adversarial imitation learning ⋮ Unnamed Item ⋮ Model-based preference quantification ⋮ Bayesian adversarial multi-node bandit for optimal smart grid protection against cyber attacks

Uses Software

AdaBoost.MH

Cites Work

This page was built for publication: Optimal Exploration–Exploitation in a Multi-armed Bandit Problem with Non-stationary Rewards

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5113912&oldid=19636931"