Is Q-Learning Minimax Optimal? A Tight Sample Complexity Analysis

From MaRDI portal

Revision as of 07:13, 10 July 2024 by Import240710060729 (talk | contribs) (Created automatically from import240710060729)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Publication:6198738

Jump to:navigation, search

DOI10.1287/opre.2023.2450arXiv2102.06548MaRDI QIDQ6198738

Yuxin Chen, Yuting Wei, Yuejie Chi, Unnamed Author, Changxiao Cai

Publication date: 20 March 2024

Published in: Operations Research (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/2102.06548

zbMATH Keywords

lower bound overestimation temporal difference learning Q-learning minimax optimality sample complexity effective horizon

Mathematics Subject Classification ID

Mathematical programming (90Cxx)

This page was built for publication: Is Q-Learning Minimax Optimal? A Tight Sample Complexity Analysis

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6198738&oldid=35697546"