💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
Google DeepMind的开放创新团队推出了Genie,这是一个从互联网视频中学习的创新世界模型,能够根据图像提示创造出无限种可操作的2D世界。Genie具有广泛的通用性,不仅局限于二维空间。
🎯
关键要点
- Google DeepMind推出了Genie,一个从互联网视频中学习的创新世界模型。
- Genie能够根据图像提示创造出无限种可操作的2D世界。
- 模型使用超过20万小时的2D平台游戏视频进行训练,拥有110亿参数。
- Genie以无监督的方式学习潜在动作,能够将任意图像转化为互动的2D世界。
- Genie学习到的动作空间丰富且易于理解,用户可以将其与语义动作对应。
- 与OpenAI的Sora相比,Genie强调动作控制,并完全通过视频学习。
- 世界模型的计算过程包括观测值、状态估计、行动建议和潜在变量。
- 开发了一种时间感知能力的视频分词器,将视频压缩成离散标记。
- Genie模型具有广泛的通用性,成功在机器人数据集上进行训练。
- Genie项目是团队协作的成果,感谢团队成员的努力和领导力。
➡️