Sample mean based index policies by O(log n) regret for the multi-armed bandit problem (Q4862097): Difference between revisions

Revision as of 05:08, 8 February 2024

scientific article; zbMATH DE number 837042

Language	Label	Description	Also known as
English	Sample mean based index policies by <i>O</i>(log <i>n</i>) regret for the multi-armed bandit problem	scientific article; zbMATH DE number 837042

Statements

instance of

scholarly article

0 references

title

Sample mean based index policies by O(log n) regret for the multi-armed bandit problem (English)

0 references

zbMATH Open document ID

0 references

0 references

0 references

Advances in Applied Probability

0 references

publication date

9 July 1996

0 references

Mathematics Subject Classification ID

0 references

0 references

0 references

0 references

upper confidence bounds

0 references

asymptotically efficient

0 references

large deviations

0 references

stochastic adaptive control

0 references

non-Bayesian infinite horizon version

0 references

multi-armed bandit problem

0 references

Kullback-Leibler number

0 references

Sitelinks

Mathematics(1 entry)

mardi Publication:4862097

Revision as of 22:49, 10 November 2023 Importer (talk \| contribs) Bots 7,032,692 edits ‎Created a new Item	Revision as of 05:08, 8 February 2024 Import240129110113 (talk \| contribs) Bots 7,163,963 edits Added link to MaRDI item. Newer edit →
links / mardi / name	links / mardi / name
		Publication:4862097

Sample mean based index policies by <i>O</i>(log <i>n</i>) regret for the multi-armed bandit problem (Q4862097): Difference between revisions

Revision as of 05:08, 8 February 2024

Statements

Sitelinks

Mathematics(1 entry)