通过联合优化的世界-动作模型预训练扩展离线基于模型的强化学习
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了离线强化学习中建立通用智能体的难题,特别是在缺乏专家轨迹和普遍性任务泛化方面的局限。我们提出了JOWA模型,这是一种基于多个Atari游戏进行预训练的离线模型,能够学习通用表示和决策能力。实验证明,该模型在仅使用10%的离线数据情况下,表现超过现有基线,显示了其在新游戏上的高效迁移和优越泛化能力。
本研究提出JOWA模型,解决离线强化学习中构建通用智能体的问题。通过在多个Atari游戏上预训练,模型能学习通用表示和决策能力。实验显示,JOWA在仅用10%离线数据时,性能超越现有基线,并在新游戏上表现出高效迁移和优越泛化能力。