A dynamic programming strategy to balance exploration and exploitation in the bandit problem

From MaRDI portal

Publication:647433

Jump to:navigation, search

DOI10.1007/S10472-010-9190-1zbMATH Open1226.68079OpenAlexW2052471706MaRDI QIDQ647433FDOQ647433

Authors: Olivier Caelen, Gianluca Bontempi

Publication date: 23 November 2011

Published in: Annals of Mathematics and Artificial Intelligence (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1007/s10472-010-9190-1

Recommendations

zbMATH Keywords

estimation greedy multi-armed bandit problem

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05) Estimation in multivariate analysis (62H12) Problem solving in the context of artificial intelligence (heuristics, search strategies, etc.) (68T20)

Cites Work

Cited In (2)

Uses Software

This page was built for publication: A dynamic programming strategy to balance exploration and exploitation in the bandit problem

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q647433)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:647433&oldid=12550066"