谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

Google DeepMind的开放创新团队推出了Genie,这是一个从互联网视频中学习的创新世界模型,能够根据图像提示创造出无限种可操作的2D世界。Genie具有广泛的通用性,不仅局限于二维空间。

🎯

关键要点

  • Google DeepMind推出了Genie,一个从互联网视频中学习的创新世界模型。
  • Genie能够根据图像提示创造出无限种可操作的2D世界。
  • 模型使用超过20万小时的2D平台游戏视频进行训练,拥有110亿参数。
  • Genie以无监督的方式学习潜在动作,能够将任意图像转化为互动的2D世界。
  • Genie学习到的动作空间丰富且易于理解,用户可以将其与语义动作对应。
  • 与OpenAI的Sora相比,Genie强调动作控制,并完全通过视频学习。
  • 世界模型的计算过程包括观测值、状态估计、行动建议和潜在变量。
  • 开发了一种时间感知能力的视频分词器,将视频压缩成离散标记。
  • Genie模型具有广泛的通用性,成功在机器人数据集上进行训练。
  • Genie项目是团队协作的成果,感谢团队成员的努力和领导力。
➡️

继续阅读