Genie 3: DeepMind 发布首个实时交互式世界模型

💡 原文中文,约1300字,阅读约需3分钟。
📝

内容提要

DeepMind 发布了 Genie 3,这是首个实时交互式世界模型,能够根据文本生成可导航的 3D 环境。其特点包括实时交互、世界记忆和可提示事件,适用于游戏、AI 研究和教育。尽管存在一些局限性,Genie 3 代表了 AI 生成互动世界的重要进展。

🎯

关键要点

  • DeepMind 发布了 Genie 3,这是全球首个实时交互式通用世界模型。
  • Genie 3 能够从单一文本提示生成可导航的 3D 环境。
  • 核心特性包括实时交互性能、世界记忆和可提示事件。
  • 实时交互性能为 720p 分辨率,24 帧/秒,持续数分钟。
  • 世界记忆能力使环境在探索过程中保持一致,动作持久化。
  • 可提示事件支持随时添加新元素,如人物和交通工具。
  • Genie 3 使用自回归架构,基于之前生成的帧和用户动作生成每一帧。
  • 应用场景包括游戏与娱乐、具身 AI 研究和教育与创意。
  • 与前代 Genie 2 和 GameNGen 相比,Genie 3 提供更长的内存和更高的实时性。
  • 局限性包括持续时间限制、动作范围有限和物理模拟不完美。
  • Genie 3 被视为通向人工通用智能(AGI)的关键垫脚石。
  • 发布信息为研究预览,状态为有限的学者和创作者群体访问。
  • Genie 3 代表了世界模型研究的重大飞跃,开辟了 AI 生成互动世界的新可能性。
➡️

继续阅读