Genie 3: DeepMind 发布首个实时交互式世界模型
💡
原文中文,约1300字,阅读约需3分钟。
📝
内容提要
DeepMind 发布了 Genie 3,这是首个实时交互式世界模型,能够根据文本生成可导航的 3D 环境。其特点包括实时交互、世界记忆和可提示事件,适用于游戏、AI 研究和教育。尽管存在一些局限性,Genie 3 代表了 AI 生成互动世界的重要进展。
🎯
关键要点
- DeepMind 发布了 Genie 3,这是全球首个实时交互式通用世界模型。
- Genie 3 能够从单一文本提示生成可导航的 3D 环境。
- 核心特性包括实时交互性能、世界记忆和可提示事件。
- 实时交互性能为 720p 分辨率,24 帧/秒,持续数分钟。
- 世界记忆能力使环境在探索过程中保持一致,动作持久化。
- 可提示事件支持随时添加新元素,如人物和交通工具。
- Genie 3 使用自回归架构,基于之前生成的帧和用户动作生成每一帧。
- 应用场景包括游戏与娱乐、具身 AI 研究和教育与创意。
- 与前代 Genie 2 和 GameNGen 相比,Genie 3 提供更长的内存和更高的实时性。
- 局限性包括持续时间限制、动作范围有限和物理模拟不完美。
- Genie 3 被视为通向人工通用智能(AGI)的关键垫脚石。
- 发布信息为研究预览,状态为有限的学者和创作者群体访问。
- Genie 3 代表了世界模型研究的重大飞跃,开辟了 AI 生成互动世界的新可能性。
➡️