Deterministic policies based on maximum regrets in MDPs with imprecise rewards

From MaRDI portal

Publication:5069649

Jump to:navigation, search

DOI10.3233/AIC-190632zbMath1487.68205OpenAlexW3201191077WikidataQ113417297 ScholiaQ113417297MaRDI QIDQ5069649

Aomar Osmani, Emiliano Traversi, Pegah Alizadeh

Publication date: 19 April 2022

Published in: AI Communications (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.3233/aic-190632

zbMATH Keywords

branch-and-bound minimax regret Markov decision process deterministic policy stochastic policy unknown rewards

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40) Problem solving in the context of artificial intelligence (heuristics, search strategies, etc.) (68T20)

Cites Work

This page was built for publication: Deterministic policies based on maximum regrets in MDPs with imprecise rewards

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5069649&oldid=19563811"