Performance Bounds in L_p‐norm for Approximate Value Iteration

From MaRDI portal

Publication:5453575

Jump to:navigation, search

DOI10.1137/040614384MaRDI QIDQ5453575zbMATH OpenOpenAlexFDO

Authors Rémi Munos

Publication date 3 April 2008

Published in SIAM Journal on Control and Optimization (Search for Journal in Brave)

Full work available at URL https://doi.org/10.1137/040614384

zbMATH Keywords

dynamic programming statistical learning error analysis optimal control Markov decision processes reinforcement learning function approximation

Mathematics Subject Classification ID

Approximation methods and heuristics in mathematical programming (90C59) Dynamic programming in optimal control and differential games (49L20) Markov and semi-Markov decision processes (90C40) Optimal stochastic control (93E20)

Recommendations

Cited in

(11)

This page was built for publication: Performance Bounds in $L_p$‐norm for Approximate Value Iteration

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q5453575)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5453575&oldid=20229069"