潜在预测赋能:无需模拟器的赋能测量
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z
在长期回报任务中,规划很重要。研究发现,使用离线强化学习数据重新规划会遇到时间一致性问题。为此,提出了潜在规划变压器(LPT),结合Transformer生成器和最终回报,通过最大似然估计学习轨迹和回报。LPT在测试时通过推断潜在变量进行规划,指导策略优化。实验表明,LPT能从次优轨迹中优化决策,在多个基准测试中表现优异,验证了潜在变量推断作为奖励提示的有效性。
原文中文,约500字,阅读约需2分钟。