谷歌DeepMind于2025年发布了Genie 3,这是首个实时交互式通用世界模型。它能够通过文本提示生成可交互的3D环境,具备自回归生成架构和物理理解能力,支持多种场景类型,应用于智能体训练、教育和创意娱乐。尽管存在一些局限性,但其技术进步被视为通往通用人工智能的重要一步。
DeepMind 发布了 Genie 3,这是首个实时交互式世界模型,能够根据文本生成可导航的 3D 环境。其特点包括实时交互、世界记忆和可提示事件,适用于游戏、AI 研究和教育。尽管存在一些局限性,Genie 3 代表了 AI 生成互动世界的重要进展。
上周,Google DeepMind发布的视觉语言模型Genie 3导致游戏公司股价下跌。尽管Genie 3能快速生成3D场景,但缺乏真实感和逻辑一致性,无法替代传统游戏开发的深度与细节。优秀游戏的价值在于IP的长期积累与情感,而非短期技术生成。AI可提升效率,但真正创作仍需人类开发者。
谷歌推出了Project Genie,允许美国的Google AI Ultra用户创建和探索互动世界。用户可以通过文本和图像构建环境,并实时导航。该原型由Genie 3驱动,尽管存在一些局限性,谷歌计划逐步扩大访问权限。
最新一期的Google AI播客讨论了Genie 3,一个实时互动的世界模型。主持人Logan Kilpatrick与项目团队成员探讨了从被动视频生成到可玩模拟环境的演变过程。
李飞飞的Marble、Lecun的JEPA和谷歌的Genie 3三种世界模型各具特色。Marble专注于生成可编辑的3D环境,JEPA关注机器人训练的因果结构,而Genie 3则生成可交互的视频环境。这三者在技术路径和应用上存在显著差异,形成了一个世界模型金字塔。
机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。
DeepMind推出Genie 3,这是一个能够根据文本提示生成互动3D环境的框架。该系统实时渲染场景,支持物体持久性和一致的物理效果,适用于机器人和具身AI的训练,区别于其他生成AI系统。
DeepMind创始人哈萨比斯在访谈中表示,Genie 3能够实时生成虚拟世界,推动AGI的发展。他提到智能体在推理和规划能力上仍存在不足,模型表现不一。未来需要更完善的评测基准,以提升AI的整体能力和一致性。
谷歌DeepMind首席执行官Demis Hassabis在最新播客中谈及Gemini 2.5和Genie 3的进展,以及Kaggle新游戏竞技场对人工通用智能(AGI)发展的推动作用。
本周AI领域的热点包括Qwen-Image开源图像生成模型、OpenAI发布的gpt-oss模型、Claude Opus 4.1更新、Google推出的Genie 3,以及GPT-5发布后的平淡反响。此外,Flow Maker和Gemini Storybook等新产品也备受关注。
Google DeepMind 于 2025 年推出的 Genie 3 是一款新一代通用世界模型,能够实时生成高保真度和一致性的交互式虚拟环境。该模型在物理属性建模和生态多样性生成方面取得了重要突破,适用于游戏、机器人训练和虚拟现实等领域。DeepMind 将继续提升该模型,推动通用人工智能的发展。
Google DeepMind发布了Genie 3,一个通用世界模型,能够生成动态交互环境,适用于机器人和游戏开发,但在物理模拟和社交交互方面仍存在挑战。AI在软件工程中的生产力提升被高估,主要体现在简单任务上。Claude Opus 4.1发布,增强了编码能力。Frigate是一个注重隐私保护的开源AI监控系统。PHP 8.5引入管道操作符,简化了代码。
Genie 3是一种新型通用世界模型,能够生成多样化的互动环境,支持实时导航,提供720p分辨率的动态世界。该模型在物理属性模拟、自然现象体验和复杂环境交互方面表现出色,为未来的通用人工智能奠定了基础。
谷歌DeepMind推出新AI模型Genie 3,能够实时生成用户与AI互动的3D环境。与Genie 2相比,用户的互动时间延长至几分钟,模型能记住物体位置,并支持天气变化等事件。目前仅限少数学者和创作者进行测试。
完成下面两步后,将自动完成登录并继续当前操作。