宝玉的分享 ·

谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

Google DeepMind的开放创新团队推出了Genie，这是一个从互联网视频中学习的创新世界模型，能够根据图像提示创造出无限种可操作的2D世界。Genie具有广泛的通用性，不仅局限于二维空间。

🎯

关键要点

Google DeepMind推出了Genie，一个从互联网视频中学习的创新世界模型。
Genie能够根据图像提示创造出无限种可操作的2D世界。
模型使用超过20万小时的2D平台游戏视频进行训练，拥有110亿参数。
Genie以无监督的方式学习潜在动作，能够将任意图像转化为互动的2D世界。
Genie学习到的动作空间丰富且易于理解，用户可以将其与语义动作对应。
与OpenAI的Sora相比，Genie强调动作控制，并完全通过视频学习。
世界模型的计算过程包括观测值、状态估计、行动建议和潜在变量。
开发了一种时间感知能力的视频分词器，将视频压缩成离散标记。
Genie模型具有广泛的通用性，成功在机器人数据集上进行训练。
Genie项目是团队协作的成果，感谢团队成员的努力和领导力。

🏷️

标签

2D世界 Genie Google DeepMind deepmind 互联网视频创新世界模型谷歌

➡️

继续阅读

谷歌解散诺奖级项目AlphaFold 诺奖得主等核心成员已经加盟A社
#人工智能谷歌解散诺奖级项目 AlphaFold 团队，多名核心成员已经加盟 A 社继续研究人工智能技术。原团队成员主要被分配到 Gemini 部门和 ...
Convert proprietary code to open ANSI SQL with Genie Code
Migrating from a legacy data warehouse is a complex undertaking, requiring teams...
物理AI模型对决：Claude Fable 5碾压GPT-5.6家族
模型打架你站谁？物理AI考场全记录。 OpenAI和Anthropic的顶级模型在物理建模考场正面交锋，五道密封考题，52次严格评分，分数、成本、时间全部...
谷歌亲手解散AlphaFold诺奖团队，科学家被赶去搞Gemini
诺贝尔奖得主AlphaFold团队被谷歌亲手解散，这算哪门子科学进步？谷歌把价值连城的蛋白质预测项目扔进垃圾桶，只为了给聊天机器人Gemini腾地方。过...
τ0-VLA——具有世界模型“引导测试时计算”的分层机器人模型：首先生成多个子任务候选，然后世界模型预演，最后价值模型评估
本文摘要：τ0-VLA提出了一种分层机器人基础模型，通过世界模型引导的测试时计算来提升长时程任务中的决策质量。该系统采用高层策略生成候选子任务，结合世界模...
Transform any place with Nano Banana in Google Earth
A hero image with example queries is shown.