Average cost temporal-difference learning

From MaRDI portal

Jump to:navigation, search

DOI10.1016/S0005-1098(99)00099-0MaRDI QIDQ1805802zbMATH OpenFDO

Authors John N. Tsitsiklis, Benjamin Van Roy

Publication date 28 February 2000

Published in Automatica (Search for Journal in Brave)

zbMATH Keywords

convergence dynamic programming learning mixing time average cost aperiodic Markov chain

Mathematics Subject Classification ID

Dynamic programming (90C39) Dynamic programming in optimal control and differential games (49L20) Optimal stochastic control (93E20) Stochastic learning and adaptive control (93E35)

Recommendations

Cited in

(20)

This page was built for publication: Average cost temporal-difference learning

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q1805802)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Average_cost_temporal-difference_learning&oldid=69004608"