小红花·文摘

强化学习（RL）在解决现实问题上取得了显著进展，离线RL提高了其实用性。为提升策略选择质量，提出了主动离线策略选择（A-OPS），该方法利用预录数据集和有限的环境交互，通过高斯过程建模策略表现，快速识别最佳策略，减少评估时间。实验结果表明，A-OPS在真实机器人实验中优于其他方法，有效降低了后悔值。相关代码已开源。