基于对比预测编码学习变换器世界模型
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究提出了TWISTER方法,通过引入以动作为条件的对比预测编码,提升了变换器世界模型的学习能力。在Atari 100k基准测试中,TWISTER实现了162%的平均人类得分,创下新纪录。
🎯
关键要点
- 本研究提出了TWISTER方法,旨在提升变换器世界模型的学习能力。
- TWISTER通过引入以动作为条件的对比预测编码,扩展了世界模型的预测时间范围。
- 研究结果显示,TWISTER在Atari 100k基准测试中实现了162%的平均人类得分。
- TWISTER创下了不使用远见搜索的先进方法的新记录。
🏷️
标签
➡️