潜在预测赋能:无需模拟器的赋能测量

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

在长期回报任务中,规划很重要。研究发现,使用离线强化学习数据重新规划会遇到时间一致性问题。为此,提出了潜在规划变压器(LPT),结合Transformer生成器和最终回报,通过最大似然估计学习轨迹和回报。LPT在测试时通过推断潜在变量进行规划,指导策略优化。实验表明,LPT能从次优轨迹中优化决策,在多个基准测试中表现优异,验证了潜在变量推断作为奖励提示的有效性。

🎯

关键要点

  • 在长期回报任务中,规划变得必要。
  • 研究发现,缺少逐步奖励时的时间一致性是一个关键技术挑战。
  • 引入潜在规划变压器(LPT),结合基于Transformer的轨迹生成器和最终回报。
  • LPT通过最大似然估计在轨迹-回报对上进行学习。
  • 通过对潜在变量的后验采样,收集子轨迹以形成一致的抽象。
  • 在测试时,从策略执行前的期望回报中推断潜在变量,实现规划作为推理。
  • LPT能够从次优轨迹中发现改进的决策。
  • 在多个基准测试中表现优异,包括Gym-Mujoco、Maze2D和Connect Four。
  • 验证了潜在变量推断作为逐步奖励提示的有效性。
➡️

继续阅读