Policy gradient in Lipschitz Markov decision processes

From MaRDI portal

Jump to:navigation, search

DOI10.1007/S10994-015-5484-1MaRDI QIDQ747252zbMATH OpenOpenAlexFDO

Authors Matteo Pirotta, Marcello Restelli, Luca Bascetta

Publication date 23 October 2015

Published in Machine Learning (Search for Journal in Brave)

Full work available at URL https://doi.org/10.1007/s10994-015-5484-1

zbMATH Keywords

Markov decision process Lipschitz continuity reinforcement learning policy gradient algorithm

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40) Methods of reduced gradient type (90C52)

Recommendations

Cites work

Cited in

(15)

This page was built for publication: Policy gradient in Lipschitz Markov decision processes

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q747252)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Policy_gradient_in_Lipschitz_Markov_decision_processes&oldid=64070775"