小红花·文摘

本文提出了一种新的离线强化学习策略评估框架，利用动态因子模型处理双不均性，开发了支持模型和无模型方法的评估技术。研究提供了基准数据集，以评估和选择复杂政策，解决历史数据中的协变量偏移问题，并提出有效的估算器。该框架在不同环境下表现优于现有算法，能够更准确地评估政策效用。