本研究探讨了离线策略评估中的估计器选择问题,提出了一种自适应方法,显著提高了估计器的准确性。研究开发了新的评估指标和基准测试套件,推动离线学习中的政策评估与选择。实验结果表明,该方法在医疗和机器人领域表现优异,为未来研究提供了方向和建议。
完成下面两步后,将自动完成登录并继续当前操作。