Reinforcement learning with replacing eligibility traces

From MaRDI portal

Publication:1911343

Jump to:navigation, search

DOI10.1007/BF00114726zbMath0843.68094MaRDI QIDQ1911343

Richard S. Sutton, Satinder Pal Singh

Publication date: 13 August 1996

Published in: Machine Learning (Search for Journal in Brave)

zbMATH Keywords

Monte Carlo methods reinforcement learning temporal difference learning eligibility trace replacing trace

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05)

Related Items

Guiding exploration by pre-existing knowledge without modifying reward, The optimal unbiased value estimator and its relation to LSTD, TD and MC, Risk-averse policy optimization via risk-neutral policy optimization, A Gentle Introduction to Reinforcement Learning

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:1911343&oldid=14330006"