本研究探讨了离线策略评估中的估计器选择问题,提出了一种自适应方法,显著提高了估计器的准确性。研究开发了新的评估指标和基准测试套件,推动离线学习中的政策评估与选择。实验结果表明,该方法在医疗和机器人领域表现优异,为未来研究提供了方向和建议。
本文研究了多维动作下的离线策略评估问题,特别是在推荐系统和用户界面优化中的应用。提出了一种改进的无偏估计器,并验证了其在真实和合成数据中的有效性。同时,针对未观测条件变量导致的偏差,提出了新算法CAP以优化策略。实验结果表明,该方法在策略评估中优于传统方法。
该文介绍了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,提供了一个完整的基准套件以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。
完成下面两步后,将自动完成登录并继续当前操作。