本文提出了一种新的离线强化学习策略评估框架,利用动态因子模型处理双不均性,开发了支持模型和无模型方法的评估技术。研究提供了基准数据集,以评估和选择复杂政策,解决历史数据中的协变量偏移问题,并提出有效的估算器。该框架在不同环境下表现优于现有算法,能够更准确地评估政策效用。
完成下面两步后,将自动完成登录并继续当前操作。