A Finite Time Analysis of Temporal Difference Learning with Linear Function Approximation

From MaRDI portal

Publication:5003727

Jump to:navigation, search

DOI10.1287/opre.2020.2024zbMath1472.90150arXiv1806.02450OpenAlexW2963616027MaRDI QIDQ5003727

Daniel J. Russo, Raghav Singal, Jalaj Bhandari

Publication date: 29 July 2021

Published in: Operations Research (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1806.02450

zbMATH Keywords

reinforcement learning temporal difference learning stochastic gradient descent finite time analysis

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40)

Related Items

Some Limit Properties of Markov Chains Induced by Recursive Stochastic Algorithms, A concentration bound for \(\operatorname{LSPE}( \lambda )\), Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis, Fundamental design principles for reinforcement learning algorithms, Finite-Time Analysis and Restarting Scheme for Linear Two-Time-Scale Stochastic Approximation, Convergence of Recursive Stochastic Algorithms Using Wasserstein Divergence

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5003727&oldid=19457128"