Batch policy learning in average reward Markov decision processes (Q2112817): Difference between revisions

From MaRDI portal

Jump to:navigation, search

← Older edit Newer edit →

Revision as of 19:13, 28 February 2024

scientific article

Language	Label	Description	Also known as
English	Batch policy learning in average reward Markov decision processes	scientific article

Statements

scholarly article

0 references

Batch policy learning in average reward Markov decision processes (English)

0 references

0 references

0 references

0 references

Predrag Klasnja

0 references

Susan A. Murphy

0 references

The Annals of Statistics

0 references

publication date

12 January 2023

0 references

full work available at URL

https://arxiv.org/abs/2007.11771

0 references

https://projecteuclid.org/journals/annals-of-statistics/volume-50/issue-6/Batch-policy-learning-in-average-reward-Markov-decision-processes/10.1214/22-AOS2231.full

0 references

zbMATH Keywords

Markov decision process

0 references

average reward

0 references

policy optimization

0 references

doubly robust estimator

0 references

describes a project that uses

0 references

Identifiers

10.1214/22-AOS2231

0 references

Mathematics Subject Classification ID

0 references

zbMATH DE Number

0 references

Sitelinks

Mathematics(1 entry)

mardi Publication:2112817

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Item:Q2112817&oldid=23463203"