A stochastic trust-region framework for policy optimization

From MaRDI portal

Publication:5096136

Jump to:navigation, search

DOI10.4208/JCM.2104-M2021-0007OpenAlexW2990109857MaRDI QIDQ5096136FDOQ5096136

Authors: Mingming Zhao, Yongfeng Li, Zaiwen Wen

Publication date: 15 August 2022

Published in: Journal of Computational Mathematics (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1911.11640

Recommendations

zbMATH Keywords

global convergence deep reinforcement learning policy optimization entropy control stochastic trust region method

Mathematics Subject Classification ID

Nonconvex programming, global optimization (90C26) Stochastic programming (90C15) Markov and semi-Markov decision processes (90C40) Optimal stochastic control (93E20)

Cites Work

Cited In (2)

Uses Software

OpenAI Gym

This page was built for publication: A stochastic trust-region framework for policy optimization

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q5096136)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5096136&oldid=19608886"