Off-policy evaluation for tabular reinforcement learning with synthetic trajectories

From MaRDI portal

Publication:6190662

Jump to:navigation, search

DOI10.1007/s11222-023-10351-yzbMath1529.62039OpenAlexW4388767681MaRDI QIDQ6190662

Yu-Qiang Li, Wei-wei Wang, Xianyi Wu

Publication date: 6 February 2024

Published in: Statistics and Computing (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1007/s11222-023-10351-y

zbMATH Keywords

importance sampling Markov decision process reinforcement learning off-policy evaluation synthetic trajectories

Mathematics Subject Classification ID

Computational methods for problems pertaining to statistics (62-08)

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6190662&oldid=35687655"