Reliable off-policy evaluation for reinforcement learning

From MaRDI portal

Publication:6579655

Jump to:navigation, search

DOI10.1287/OPRE.2022.2382MaRDI QIDQ6579655zbMATH OpenFDO

Authors Jie Wang, Rui Gao, Hongyuan Zha

Publication date 25 July 2024

Published in Operations Research (Search for Journal in Brave)

zbMATH Keywords

uncertainty quantification reinforcement learning Wasserstein robust optimization

Mathematics Subject Classification ID

Decision theory (91B06)

Recommendations

Proximal reinforcement learning: efficient off-policy evaluation in partially observed Markov decision processes
Double reinforcement learning for efficient off-policy evaluation in Markov decision processes
Projected state-action balancing weights for offline reinforcement learning
Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning
Off-policy evaluation in partially observed Markov decision processes under sequential ignorability

Cited in

(4)

This page was built for publication: Reliable off-policy evaluation for reinforcement learning

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q6579655)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6579655&oldid=40123368"