An incremental off-policy search in a model-free Markov decision process using a single sample path

From MaRDI portal

Publication:1621868

Jump to:navigation, search

DOI10.1007/s10994-018-5697-1zbMath1465.90116arXiv1801.10287MaRDI QIDQ1621868

Ajin George Joseph, Shalabh Bhatnagar

Publication date: 12 November 2018

Published in: Machine Learning (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1801.10287

zbMATH Keywords

global optimization; Markov decision process; control problem; cross entropy method; linear function approximation; stochastic approximation method; ODE method; off-policy prediction

Mathematics Subject Classification ID

90C40: Markov and semi-Markov decision processes

Uses Software

PILCO

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:1621868&oldid=13926254"