An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions (Q5380403)

scientific article; zbMATH DE number 7062532

Language	Label	Description	Also known as
English	An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions	scientific article; zbMATH DE number 7062532

Statements

instance of

scholarly article

0 references

title

An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions (English)

0 references

0 references

0 references

0 references

0 references

0 references

4 June 2019

0 references

MaRDI profile type

MaRDI publication profile

0 references

cites work

Online Markov Decision Processes

0 references

Q2921693

0 references

Logarithmic Regret Algorithms for Online Convex Optimization

0 references

Efficient algorithms for online decision problems

0 references

An Online Policy Gradient Algorithm for Markov Decision Processes with Continuous States and Actions

0 references

Online Markov Decision Processes Under Bandit Feedback

0 references

Q4626283

0 references

Simple statistical gradient-following algorithms for connectionist reinforcement learning

0 references

Markov Decision Processes with Arbitrary Reward Processes

0 references

full work available at URL

https://doi.org/10.1162/neco_a_00808

0 references

Identifiers

zbMATH Open document ID

1472.68149

0 references

DOI

10.1162/NECO_a_00808

0 references

Mathematics Subject Classification ID

0 references

0 references

0 references

0 references

0 references

0 references

journals/neco/MaZHS16

0 references

Sitelinks

Mathematics(1 entry)

mardi Publication:5380403