Simulation-based algorithms for Markov decision processes.

Authors Hyeong Soo Chang, Michael C. Fu, Jiaqiao Hu, Steven I. Marcus

Publication date 13 March 2007

Published in Communications and Control Engineering (Search for Journal in Brave)

simulation algorithm discounting optimal policy Markov decisin process

Approximation methods and heuristics in mathematical programming (90C59) Research exposition (monographs, survey articles) pertaining to operations research and mathematical programming (90-02) Markov and semi-Markov decision processes (90C40)

Recommendations

Simulation-based algorithms for Markov decision processes
scientific article; zbMATH DE number 420890
A survey of some simulation-based algorithms for Markov decision processes
scientific article; zbMATH DE number 4154239
Computing optimal policies for Markovian decision processes using simulation

Cited in

(37)

An evolutionary random policy search algorithm for solving Markov decision processes
CONIC TRADING IN A MARKOVIAN STEADY STATE
A semi-Lagrangian approach for time and energy path planning optimization in static flow fields
Risk-Sensitive Reinforcement Learning via Policy Gradient Search
Approximation of discounted minimax Markov control problems and zero-sum Markov games using Hausdorff and Wasserstein distances
Optimization of Markov decision processes under the variance criterion
Multi-policy iteration with a distributed voting.
Simulation-based optimization of Markov reward processes
A variable neighborhood search based algorithm for finite-horizon Markov decision processes
A survey of some simulation-based algorithms for Markov decision processes
What you should know about approximate dynamic programming
Solving average cost Markov decision processes by means of a two-phase time aggregation algorithm
Sampled fictitious play for approximate dynamic programming
Computing optimal policies for Markovian decision processes using simulation
Strategic capacity decision-making in a stochastic manufacturing environment using real-time approximate dynamic programming
Computable approximations for continuous-time Markov decision processes on Borel spaces based on empirical measures
Policy-based branch-and-bound for infinite-horizon multi-model Markov decision processes
Simulation-based optimization of Markov decision processes: an empirical process theory approach
New approximate dynamic programming algorithms for large-scale undiscounted Markov decision processes and their application to optimize a production and distribution system
Approximation of Markov decision processes with general state space
The optimal control of just-in-time-based production and distribution systems and performance comparisons with optimized pull systems
Variance-penalized Markov decision processes: dynamic programming and reinforcement learning techniques
A Sarsa() algorithm based on double-layer fuzzy reasoning
Simulation optimization algorithms for SMDPs with parameterized randomized stationary policies
Sleeping experts and bandits approach to constrained Markov decision processes
Coupling based estimation approaches for the average reward performance potential in Markov chains
Approximate stochastic annealing for online control of infinite horizon Markov decision processes
NDP methods for multi-chain MDPs
Computable approximations for average Markov decision processes in continuous time
Simulation-based algorithms for Markov decision processes
Stochastic approximations of constrained discounted Markov decision processes
A review of stochastic algorithms with continuous value function approximation and some new approximate policy iteration algorithms for multidimensional continuous applications
Approximate policy iteration: a survey and some new methods
Adaptive aggregation for reinforcement learning in average reward Markov decision processes
Planning with Markov decision processes. An AI perspective
Mean field Markov decision processes
An Adaptive Sampling Algorithm for Solving Markov Decision Processes

This page was built for publication: Simulation-based algorithms for Markov decision processes.

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q870662)