Batch policy learning in average reward Markov decision processes (Q2112817)

scientific article

Language	Label	Description	Also known as
English	Batch policy learning in average reward Markov decision processes	scientific article

Statements

instance of

scholarly article

0 references

title

Batch policy learning in average reward Markov decision processes (English)

0 references

0 references

0 references

0 references

0 references

0 references

The Annals of Statistics

0 references

publication date

12 January 2023

0 references

full work available at URL

https://arxiv.org/abs/2007.11771

0 references

https://projecteuclid.org/journals/annals-of-statistics/volume-50/issue-6/Batch-policy-learning-in-average-reward-Markov-decision-processes/10.1214/22-AOS2231.full

0 references

zbMATH Keywords

Markov decision process

0 references

average reward

0 references

policy optimization

0 references

doubly robust estimator

0 references

Identifiers

DOI

10.1214/22-AOS2231

0 references

Mathematics Subject Classification ID

62G05

0 references

zbMATH DE Number

7641129

0 references

Batch policy learning in average reward Markov decision processes (Q2112817)

Statements

Identifiers

Sitelinks

Mathematics(0 entries)