An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions (Q5380403)

scientific article; zbMATH DE number 7062532

Language	Label	Description	Also known as
default for all languages	No label defined
English	An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions	scientific article; zbMATH DE number 7062532

Statements

instance of

scholarly article

0 references

title

An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions (English)

0 references

0 references

0 references

0 references

0 references

0 references

4 June 2019

0 references

MaRDI profile type

MaRDI publication profile

0 references

cites work

Online Markov decision processes

0 references

Online convex optimization in the bandit setting: gradient descent without a gradient

0 references

Logarithmic Regret Algorithms for Online Convex Optimization

0 references

Efficient algorithms for online decision problems

0 references

An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions

0 references

Online Markov Decision Processes Under Bandit Feedback

0 references

Reinforcement learning. An introduction

0 references

Simple statistical gradient-following algorithms for connectionist reinforcement learning

0 references

Markov decision processes with arbitrary reward processes

0 references

full work available at URL

https://doi.org/10.1162/neco_a_00808

0 references

Identifiers

zbMATH Open document ID

1472.68149

0 references

Mathematics Subject Classification ID

0 references

0 references

0 references

0 references

0 references

0 references

journals/neco/MaZHS16

0 references

DOI

10.1162/NECO_A_00808

0 references

Sitelinks

Mathematics(1 entry)

mardi Publication:5380403