Micropaper ·

DeepMind Genie 3 研究：实时交互式 3D 世界模型的重大突破

💡 原文中文，约3400字，阅读约需9分钟。

📝

内容提要

谷歌DeepMind于2025年发布了Genie 3，这是首个实时交互式通用世界模型。它能够通过文本提示生成可交互的3D环境，具备自回归生成架构和物理理解能力，支持多种场景类型，应用于智能体训练、教育和创意娱乐。尽管存在一些局限性，但其技术进步被视为通往通用人工智能的重要一步。

🎯

🔎

Genie 3 是在前代模型 Genie 2 和 Veo 3 的基础上发展而来的，标志着谷歌 DeepMind 在世界模型技术上的持续创新。通过自回归生成架构，Genie 3 能够逐帧生成环境，确保了场景的一致性和连贯性。这种技术进步为未来的通用人工智能奠定了基础。

Genie 3 的多种应用场景包括智能体训练、教育和创意娱乐等。其能够生成动态的3D环境，支持实时交互，极大地丰富了用户体验。这种技术的灵活性使其在教育和培训领域具有广泛的应用潜力，尤其是在历史探索和模拟训练方面。

尽管 Genie 3 在技术上取得了重大突破，但仍存在物理真实度不足、交互时长限制等局限性。这些问题可能影响其在实际应用中的表现，尤其是在需要长时间交互的场景中。因此，未来的研究需要集中解决这些挑战，以提升模型的实用性和可靠性。

❓

Genie 3的主要功能包括通过文本生成3D世界、实时交互和可提示的世界事件。

Genie 3通过自回归生成架构，逐帧生成3D环境，确保环境的一致性。

Genie 3用于训练通用人工智能体，模拟真实世界场景以帮助智能体执行任务。

Genie 3的局限性包括物理真实度不足、交互时长有限和多智能体交互建模困难。

与前代产品相比，Genie 3的交互时长从10-20秒提升至数分钟，分辨率提高至720p，帧率达到24fps。

Genie 3的物理理解能力通过自主学习获得，而不是依赖硬编码的物理引擎。

🏷️