小红花·文摘

本研究探讨了离线策略评估中的估计器选择问题，提出了一种自适应方法，显著提高了估计器的准确性。研究开发了新的评估指标和基准测试套件，推动离线学习中的政策评估与选择。实验结果表明，该方法在医疗和机器人领域表现优异，为未来研究提供了方向和建议。