Efficient exploration through active learning for value function approximation in reinforcement learning

From MaRDI portal

Publication:1784573

Jump to:navigation, search

DOI10.1016/j.neunet.2009.12.010zbMath1396.68086OpenAlexW2160095661WikidataQ48234774 ScholiaQ48234774MaRDI QIDQ1784573

Masashi Sugiyama, Hirotaka Hachiya, Takayuki Akiyama

Publication date: 27 September 2018

Published in: Neural Networks (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1016/j.neunet.2009.12.010

zbMATH Keywords

Markov decision process reinforcement learning active learning least-squares policy iteration batting robot

Mathematics Subject Classification ID

Linear regression; mixed models (62J05) Learning and adaptive systems in artificial intelligence (68T05) Algorithms for approximation of functions (65D15) Artificial intelligence for robotics (68T40)

Related Items (5)

Reward-Weighted Regression with Sample Reuse for Direct Policy Search in Reinforcement Learning ⋮ Model-based policy gradients with parameter-based exploration by least-squares conditional density estimation ⋮ Improving importance estimation in pool-based batch active learning for approximate linear regression ⋮ Direct density-ratio estimation with dimensionality reduction via least-squares hetero-distributional subspace search ⋮ A parallel scheduling algorithm for reinforcement learning in large state space

Uses Software

PRMLT

Cites Work

This page was built for publication: Efficient exploration through active learning for value function approximation in reinforcement learning

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:1784573&oldid=14142364"