通过联合优化的世界-动作模型预训练扩展离线基于模型的强化学习
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出JOWA模型,解决离线强化学习中构建通用智能体的问题。通过在多个Atari游戏上预训练,模型能学习通用表示和决策能力。实验显示,JOWA在仅用10%离线数据时,性能超越现有基线,并在新游戏上表现出高效迁移和优越泛化能力。
🎯
关键要点
- 本研究提出JOWA模型,解决离线强化学习中建立通用智能体的问题。
- JOWA模型通过在多个Atari游戏上进行预训练,学习通用表示和决策能力。
- 实验结果显示,JOWA在仅用10%离线数据时,性能超越现有基线。
- JOWA模型在新游戏上表现出高效迁移和优越泛化能力。
➡️