Off-policy temporal difference learning with distribution adaptation in fast mixing chains

From MaRDI portal

Jump to:navigation, search

DOI10.1007/S00500-017-2490-1MaRDI QIDQ1797759zbMATH OpenOpenAlexFDO

Authors Arash Givchi, Maziar Palhang

Publication date 22 October 2018

Published in Soft Computing (Search for Journal in Brave)

Full work available at URL https://doi.org/10.1007/s00500-017-2490-1

zbMATH Keywords

mixing time reinforcement learning covariate shift adaptation least-squares temporal difference off-policy evaluation

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05)

Recommendations

Cites work

Cited in

(2)

This page was built for publication: Off-policy temporal difference learning with distribution adaptation in fast mixing chains

Report a bug (only for logged in users!)Click here to report a bug for this page (MaRDI item Q1797759)

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Off-policy_temporal_difference_learning_with_distribution_adaptation_in_fast_mixing_chains&oldid=72620073"