潜在预测赋能:无需模拟器的赋能测量
原文中文,约500字,阅读约需2分钟。发表于: 。本文解决了赋能方法在训练通用智能体时的可扩展性问题,并提出了一种名为潜在预测赋能(LPE)的新算法。LPE通过最大化技能与状态之间的互信息替代量来学习大规模技能集,只需要一个简单的潜在预测模型,而不是完整的环境模拟器。实验证明,LPE在多种高维观察和高度随机转移动态的环境中能学习到与最佳赋能算法相当的技能集,且优于其他基于模型的赋能方法。
在长期回报任务中,规划很重要。研究发现,使用离线强化学习数据重新规划会遇到时间一致性问题。为此,提出了潜在规划变压器(LPT),结合Transformer生成器和最终回报,通过最大似然估计学习轨迹和回报。LPT在测试时通过推断潜在变量进行规划,指导策略优化。实验表明,LPT能从次优轨迹中优化决策,在多个基准测试中表现优异,验证了潜在变量推断作为奖励提示的有效性。