{"entities":{"Q6381582":{"pageid":13515242,"ns":120,"title":"Item:Q6381582","lastrevid":40682290,"modified":"2025-03-28T12:50:59Z","type":"item","id":"Q6381582","labels":{"en":{"language":"en","value":"Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes"}},"descriptions":{"en":{"language":"en","value":"preprint article from arXiv"}},"aliases":{},"claims":{"P31":[{"mainsnak":{"snaktype":"value","property":"P31","hash":"fd5912e4dab4b881a8eb0eb27e7893fef55176ad","datavalue":{"value":{"entity-type":"item","numeric-id":56887,"id":"Q56887"},"type":"wikibase-entityid"},"datatype":"wikibase-item"},"type":"statement","id":"Q6381582$FA76C8F0-A1AA-45E0-9D7C-24E3282CFDC8","rank":"normal"}],"P28":[{"mainsnak":{"snaktype":"value","property":"P28","hash":"662957950177d79da2ea9cb2734ca1e2e71c4089","datavalue":{"value":{"time":"+2021-10-28T00:00:00Z","timezone":0,"before":0,"after":0,"precision":11,"calendarmodel":"http://www.wikidata.org/entity/Q1985727"},"type":"time"},"datatype":"time"},"type":"statement","id":"Q6381582$B78061E9-842C-47D2-8EEA-FF07DE8EFBEF","rank":"normal"}],"P21":[{"mainsnak":{"snaktype":"value","property":"P21","hash":"f6ffd6ffa6ad28f968053a8a052f9b7d26238d3a","datavalue":{"value":"2110.15332","type":"string"},"datatype":"external-id"},"type":"statement","id":"Q6381582$55E6E86E-AA1E-4FAC-BFCD-B8C59579096F","rank":"normal"}],"P22":[{"mainsnak":{"snaktype":"value","property":"P22","hash":"5a9a9eaa7fd7e010f3960691b4ec6b49e1992fea","datavalue":{"value":"cs.LG","type":"string"},"datatype":"string"},"type":"statement","id":"Q6381582$9E57CE21-BAE0-44CF-A358-1EA3E2CD00D0","rank":"normal"},{"mainsnak":{"snaktype":"value","property":"P22","hash":"5a067f3cc35200b51bab0398d603e2eb9779a610","datavalue":{"value":"math.OC","type":"string"},"datatype":"string"},"type":"statement","id":"Q6381582$006777F2-0452-44A1-BF7E-7D4440409AA9","rank":"normal"},{"mainsnak":{"snaktype":"value","property":"P22","hash":"2425efcc9b3f19f1145afc4b21ab66cac71c91ae","datavalue":{"value":"math.ST","type":"string"},"datatype":"string"},"type":"statement","id":"Q6381582$EFBB6123-1743-48FE-B1BC-12BB75E44600","rank":"normal"},{"mainsnak":{"snaktype":"value","property":"P22","hash":"2f2e57240622252e683460d1060f02c9996da311","datavalue":{"value":"stat.ML","type":"string"},"datatype":"string"},"type":"statement","id":"Q6381582$B3C98010-9B09-4616-96FB-D11BA227A30C","rank":"normal"},{"mainsnak":{"snaktype":"value","property":"P22","hash":"d35dc51b4a62fd6d7600c5d09b56c886534bd872","datavalue":{"value":"stat.TH","type":"string"},"datatype":"string"},"type":"statement","id":"Q6381582$8BF89985-EA52-4D21-AFE8-FAE317AF5AF4","rank":"normal"}],"P43":[{"mainsnak":{"snaktype":"value","property":"P43","hash":"8a042a8baad5c9192055d95d8806300d24db70fa","datavalue":{"value":"Andrew Bennett","type":"string"},"datatype":"string"},"type":"statement","id":"Q6381582$DF4AD892-E01B-4E2A-AAFA-1990CE9063A9","rank":"normal"},{"mainsnak":{"snaktype":"value","property":"P43","hash":"9921fd33def6d70496f2da71f32ad2ac5c5335d0","datavalue":{"value":"Nathan Kallus","type":"string"},"datatype":"string"},"type":"statement","id":"Q6381582$CB8D8A40-F246-40BB-899E-D2465783AE1F","rank":"normal"}],"P1460":[{"mainsnak":{"snaktype":"value","property":"P1460","hash":"57f7fea50d2ce1b39b695c4a1313582eed405e38","datavalue":{"value":{"entity-type":"item","numeric-id":5976449,"id":"Q5976449"},"type":"wikibase-entityid"},"datatype":"wikibase-item"},"type":"statement","id":"Q6381582$59535DA6-0426-45A5-B41E-1140CC3B3A93","rank":"normal"}],"P1687":[{"mainsnak":{"snaktype":"value","property":"P1687","hash":"a1b39931bb12dde4a35871073da4547c162c25d3","datavalue":{"value":"https://github.com/causalml/proximalrl","type":"string"},"datatype":"url"},"type":"statement","id":"Q6381582$0355BF2E-60B3-46E4-A150-F6A18A430640","rank":"normal","references":[{"hash":"09cde00e60bf8aa997ba68d6eb945ac2905aad02","snaks":{"P1688":[{"snaktype":"value","property":"P1688","hash":"42c19666050a6fc63124cabd3626b5391726a834","datavalue":{"value":"https://paperswithcode.com/paper/proximal-reinforcement-learning-efficient-off","type":"string"},"datatype":"url"}],"P1689":[{"snaktype":"value","property":"P1689","hash":"24a5bedbb98b468462189ba0d6c16a88a2414cc1","datavalue":{"value":"publication","type":"string"},"datatype":"string"}]},"snaks-order":["P1688","P1689"]}]}]},"sitelinks":{"mardi":{"site":"mardi","title":"Publication:6381582","badges":[],"url":"https://portal.mardi4nfdi.de/wiki/Publication:6381582"}}}}}