强化学习(RL)在解决现实问题上取得了显著进展,离线RL提高了其实用性。为提升策略选择质量,提出了主动离线策略选择(A-OPS),该方法利用预录数据集和有限的环境交互,通过高斯过程建模策略表现,快速识别最佳策略,减少评估时间。实验结果表明,A-OPS在真实机器人实验中优于其他方法,有效降低了后悔值。相关代码已开源。
完成下面两步后,将自动完成登录并继续当前操作。