Policy gradient in continuous time

From MaRDI portal

Jump to:navigation, search

MaRDI QIDQ3093369zbMATH OpenFDO

Authors Rémi Munos

Publication date 12 October 2011

Full work available at URL http://www.jmlr.org/papers/v7/munos06b.html

zbMATH Keywords

sensitivity analysis optimal control reinforcement learning gradient estimate parametric optimization likelihood ratio method policy search pathwise derivation

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05) Problem solving in the context of artificial intelligence (heuristics, search strategies, etc.) (68T20) Optimal stochastic control (93E20)

Recommendations

Cited in

(29)

This page was built for publication: Policy gradient in continuous time

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q3093369)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Policy_gradient_in_continuous_time&oldid=86185511"