Publication:3305109: Difference between revisions

From MaRDI portal

Publication:3305109

Jump to:navigation, search

Latest revision as of 14:58, 2 May 2024

DOI10.1007/978-3-319-57351-9_1zbMath1454.68135arXiv1704.04463OpenAlexW2606786028MaRDI QIDQ3305109

Richard S. Sutton, Huizhen Yu, Ashique Rupam Mahmood

Publication date: 5 August 2020

Published in: Advances in Artificial Intelligence (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1704.04463

zbMATH Keywords

Markov chain Markov decision process reinforcement learning policy evaluation temporal differences randomized stopping time generalized Bellman equation approximate policy evaluation temporal-difference method

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05) Dynamic programming (90C39) Applications of Markov chains and discrete-time Markov processes on general state spaces (social mobility, learning theory, industrial processes, etc.) (60J20) Markov and semi-Markov decision processes (90C40)

Related Items (3)

Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning ⋮ Estimating Optimal Infinite Horizon Dynamic Treatment Regimes via pT-Learning ⋮ Distributed consensus-based multi-agent temporal-difference learning

Uses Software

SBEED

Cites Work

This page was built for publication: On Generalized Bellman Equations and Temporal-Difference Learning

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:3305109&oldid=34061400"