Using Expectation-Maximization for Reinforcement Learning

From MaRDI portal

Publication:3125233

Jump to:navigation, search

DOI10.1162/neco.1997.9.2.271zbMath0876.68090OpenAlexW2080039641MaRDI QIDQ3125233

Geoffrey E. Hinton, Peter Dayan

Publication date: 18 March 1997

Published in: Neural Computation (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1162/neco.1997.9.2.271

zbMATH Keywords

learning algorithm relative payoff procedure

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05)

Related Items (16)

Reward-Weighted Regression with Sample Reuse for Direct Policy Search in Reinforcement Learning ⋮ Heterarchical reinforcement-learning model for integration of multiple cortico-striatal loops: fMRI examination in stimulus-action-reward association learning ⋮ Probabilistic inference for determining options in reinforcement learning ⋮ Active inference and agency: optimal control without cost functions ⋮ Exact decomposition approaches for Markov decision processes: a survey ⋮ Model-based policy gradients with parameter-based exploration by least-squares conditional density estimation ⋮ Modular inverse reinforcement learning for visuomotor behavior ⋮ Policy search for motor primitives in robotics ⋮ Optimal control as a graphical model inference problem ⋮ Theoretical foundation for CMA-ES from information geometry perspective ⋮ Analysis and improvement of policy gradient estimation ⋮ Deep Reinforcement Learning: A State-of-the-Art Walkthrough ⋮ Reinforcement distribution in fuzzy Q-learning ⋮ Unnamed Item ⋮ Unnamed Item ⋮ Model-based Reinforcement Learning: A Survey

Cites Work

This page was built for publication: Using Expectation-Maximization for Reinforcement Learning

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:3125233&oldid=16211564"