潜在预测赋能:无需模拟器的赋能测量
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
在长期回报任务中,规划很重要。研究发现,使用离线强化学习数据重新规划会遇到时间一致性问题。为此,提出了潜在规划变压器(LPT),结合Transformer生成器和最终回报,通过最大似然估计学习轨迹和回报。LPT在测试时通过推断潜在变量进行规划,指导策略优化。实验表明,LPT能从次优轨迹中优化决策,在多个基准测试中表现优异,验证了潜在变量推断作为奖励提示的有效性。
🎯
关键要点
- 在长期回报任务中,规划变得必要。
- 研究发现,缺少逐步奖励时的时间一致性是一个关键技术挑战。
- 引入潜在规划变压器(LPT),结合基于Transformer的轨迹生成器和最终回报。
- LPT通过最大似然估计在轨迹-回报对上进行学习。
- 通过对潜在变量的后验采样,收集子轨迹以形成一致的抽象。
- 在测试时,从策略执行前的期望回报中推断潜在变量,实现规划作为推理。
- LPT能够从次优轨迹中发现改进的决策。
- 在多个基准测试中表现优异,包括Gym-Mujoco、Maze2D和Connect Four。
- 验证了潜在变量推断作为逐步奖励提示的有效性。
➡️