原文中文,约1900字,阅读约需5分钟。
📝
内容提要
Google DeepMind的开放创新团队推出了Genie,这是一个从互联网视频中学习的创新世界模型,能够根据图像提示创造出无限种可操作的2D世界。Genie具有广泛的通用性,不仅局限于二维空间。
🎯
关键要点
-
Google DeepMind推出了Genie,一个从互联网视频中学习的创新世界模型。
-
Genie能够根据图像提示创造出无限种可操作的2D世界。
-
模型使用超过20万小时的2D平台游戏视频进行训练,拥有110亿参数。
-
Genie以无监督的方式学习潜在动作,能够将任意图像转化为互动的2D世界。
-
Genie学习到的动作空间丰富且易于理解,用户可以将其与语义动作对应。
-
与OpenAI的Sora相比,Genie强调动作控制,并完全通过视频学习。
-
世界模型的计算过程包括观测值、状态估计、行动建议和潜在变量。
-
开发了一种时间感知能力的视频分词器,将视频压缩成离散标记。
-
Genie模型具有广泛的通用性,成功在机器人数据集上进行训练。
-
Genie项目是团队协作的成果,感谢团队成员的努力和领导力。
🏷️