Average cost temporal-difference learning (Q1805802)

From MaRDI portal

Jump to:navigation, search

!

WARNING

This is the item page for this Wikibase entity, intended for internal use and editing purposes.

Please use the normal view instead:

Average cost temporal-difference learning

scientific article; zbMATH DE number 1355384

Language	Label	Description	Also known as
default for all languages	No label defined
English	Average cost temporal-difference learning	scientific article; zbMATH DE number 1355384

Statements

scholarly article

0 references

Average cost temporal-difference learning (English)

0 references

John N. Tsitsiklis

0 references

Benjamin Van Roy

0 references

0 references

publication date

28 February 2000

0 references

The authors propose a variant of temporal-difference learning that approximates average and differential costs of an irreducible aperiodic Markov chain. Approximations are performed through linear combinations of fixed basis functions whose weights are incrementally updated during a single endless trajectory of the Markov chain. In addition, a proof of convergence and a characterization of the limit of convergence are presented. A bound on the resulting approximation error that exhibits an interesting dependence on ``mixing time'' of the Markov chain is provided.

0 references

0 references

zbMATH Keywords

dynamic programming

0 references

learning

0 references

average cost

0 references

aperiodic Markov chain

0 references

convergence

0 references

mixing time

0 references

MaRDI profile type

MaRDI publication profile

0 references

Recommended article

On average versus discounted reward temporal-difference learning

Similarity Score

0.91145957

Recommender Run

Recommender Run 2

0 references

Learning algorithms for Markov decision processes with average cost

Similarity Score

0.90475595

Recommender Run

Recommender Run 2

0 references

Reinforcement learning based algorithms for average cost Markov decision processes

Similarity Score

0.8937353

Recommender Run

Recommender Run 2

0 references

Reinforcement learning for long-run average cost.

Similarity Score

0.88366514

Recommender Run

Recommender Run 2

0 references

Model-based average reward reinforcement learning

Similarity Score

0.86691004

Recommender Run

Recommender Run 2

0 references

Kernel-based reinforcement learning in average-cost problems

Similarity Score

0.8650438

Recommender Run

Recommender Run 2

0 references

Differential Temporal Difference Learning

Similarity Score

0.8633541

Recommender Run

Recommender Run 2

0 references

Average reward reinforcement learning: foundations, algorithms, and empirical results

Similarity Score

0.86287606

Recommender Run

Recommender Run 2

0 references

Linear least-squares algorithms for temporal difference learning

Similarity Score

0.85704744

Recommender Run

Recommender Run 2

0 references

Linear least-squares algorithms for temporal difference learning

Similarity Score

0.85704744

Recommender Run

Recommender Run 2

0 references

Identifiers

zbMATH Open document ID

0 references

10.1016/S0005-1098(99)00099-0

0 references

Mathematics Subject Classification ID

0 references

0 references

0 references

0 references

zbMATH DE Number

0 references

Sitelinks

Mathematics(1 entry)

mardi Average cost temporal-difference learning

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Item:Q1805802&oldid=69004614"