Q-learning and policy iteration algorithms for stochastic shortest path problems

From MaRDI portal

(Redirected from Publication:378731)

Jump to:navigation, search

DOI10.1007/S10479-012-1128-ZMaRDI QIDQ378731zbMATH OpenOpenAlexWikidataFDO

Authors Huizhen Yu, Dimitri P. Bertsekas

Publication date 12 November 2013

Published in Annals of Operations Research (Search for Journal in Brave)

Full work available at URL https://doi.org/10.1007/s10479-012-1128-z

zbMATH Keywords

stochastic approximation value iteration Markov decision processes approximate dynamic programming policy iteration Q-learning stochastic shortest paths

Mathematics Subject Classification ID

Dynamic programming (90C39) Markov and semi-Markov decision processes (90C40)

Recommendations

Cites work

Cited in

(13)

This page was built for publication: Q-learning and policy iteration algorithms for stochastic shortest path problems

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q378731)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Q-learning_and_policy_iteration_algorithms_for_stochastic_shortest_path_problems&oldid=61389027"