A least squares temporal difference actor–critic algorithm with applications to warehouse management

From MaRDI portal

Publication:3120552

Jump to:navigation, search

DOI10.1002/nav.21481zbMath1407.90334OpenAlexW1964782533MaRDI QIDQ3120552

Ioannis Ch. Paschalidis, Reza Moazzez Estanjini, Keyong Li

Publication date: 5 March 2019

Published in: Naval Research Logistics (NRL) (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1002/nav.21481

zbMATH Keywords

Markov decision processes vehicle routing partial observability actor-critic algorithms approximate dynamic programming warehouse management

Mathematics Subject Classification ID

Dynamic programming (90C39) Markov and semi-Markov decision processes (90C40)

Related Items (2)

Neural circuits for learning context-dependent associations of stimuli ⋮ Performance optimization for a class of generalized stochastic Petri nets

This page was built for publication: A least squares temporal difference actor–critic algorithm with applications to warehouse management

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:3120552&oldid=16208994"