Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning

From MaRDI portal

Revision as of 12:46, 8 February 2024 by Import240129110113 (talk | contribs) (Created automatically from import240129110113)

(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

Publication:5060503

Jump to:navigation, search

DOI10.1287/opre.2021.2249OpenAlexW2994709386MaRDI QIDQ5060503

Nathan Kallus, Masatoshi Uehara

Publication date: 10 January 2023

Published in: Operations Research (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1909.05850

zbMATH Keywords

infinite horizon Markov decision processes semiparametric efficiency off-policy evaluation

Mathematics Subject Classification ID

Applications of mathematical programming (90C90) Markov and semi-Markov decision processes (90C40)

Related Items

A multiagent reinforcement learning framework for off-policy evaluation in two-sided markets, Off-policy evaluation in partially observed Markov decision processes under sequential ignorability, Projected state-action balancing weights for offline reinforcement learning, Online Bootstrap Inference For Policy Evaluation In Reinforcement Learning

Uses Software

OpenAI Gym

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5060503&oldid=19545696"