Optimistic Posterior Sampling for Reinforcement Learning: Worst-Case Regret Bounds

From MaRDI portal

Publication:6199245

Jump to:navigation, search

DOI10.1287/MOOR.2022.1266arXiv1705.07041OpenAlexW2769648743MaRDI QIDQ6199245

Randy Jia, Shipra Agrawal

Publication date: 23 February 2024

Published in: Mathematics of Operations Research (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1705.07041

zbMATH Keywords

reinforcement learning Thompson sampling Markov decision process regret bounds

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40) General topics in artificial intelligence (68T01)

This page was built for publication: Optimistic Posterior Sampling for Reinforcement Learning: Worst-Case Regret Bounds

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6199245&oldid=35693142"