Adaptive aggregation for reinforcement learning in average reward Markov decision processes (Q378753)

!

WARNING

This is the item page for this Wikibase entity, intended for internal use and editing purposes.

Please use the normal view instead:

Adaptive aggregation for reinforcement learning in average reward Markov decision processes

scientific article; zbMATH DE number 6225981

Language	Label	Description	Also known as
default for all languages	No label defined
English	Adaptive aggregation for reinforcement learning in average reward Markov decision processes	scientific article; zbMATH DE number 6225981

Statements

instance of

scholarly article

0 references

title

Adaptive aggregation for reinforcement learning in average reward Markov decision processes (English)

0 references

author

Ronald Ortner

0 references

published in

Annals of Operations Research

0 references

publication date

12 November 2013

0 references

zbMATH Keywords

reinforcement learning

0 references

Markov decision process

0 references

bounded parameter MDP

0 references

regret

0 references

MaRDI profile type

MaRDI publication profile

0 references

full work available at URL

https://doi.org/10.1007/s10479-012-1064-y

0 references

cites work

Finite-time analysis of the multiarmed bandit problem

0 references

Adaptive aggregation methods for infinite horizon dynamic programming

0 references

Optimal adaptive policies for sequential allocation problems

0 references

Optimal Adaptive Policies for Markov Decision Processes

0 references

An Adaptive Sampling Algorithm for Solving Markov Decision Processes

0 references

Simulation-based algorithms for Markov decision processes.

0 references

Approximate equivalence of Markov decision processes.

0 references

Bisimulation metrics for continuous Markov decision processes

0 references

Equivalence notions and model minimization in Markov decision processes

0 references

Bounded-parameter Markov decision processes

0 references

Near-optimal regret bounds for reinforcement learning

0 references

Asymptotically efficient adaptive allocation rules

0 references

Knows what it knows: a framework for self-aware learning

0 references

Pseudometrics for State Aggregation in Average Reward Markov Decision Processes

0 references

Q4315289

0 references

Performance Loss Bounds for Approximate Value Iteration with State Aggregation

0 references

An analysis of model-based interval estimation for Markov decision processes

0 references

Bounded Parameter Markov Decision Processes with Average Reward Criterion

0 references

Identifiers

zbMATH Open document ID

1274.90476

0 references

Mathematics Subject Classification ID

0 references

0 references

0 references

10.1007/S10479-012-1064-Y

0 references

Sitelinks

Mathematics(1 entry)

mardi Adaptive aggregation for reinforcement learning in average reward Markov decision processes