量子位 ·

豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

豆包团队推出VideoWorld模型，利用纯视觉信号学习复杂任务，无需语言模型。该模型通过潜在动态模型压缩视频帧间变化，提高学习效率，已在围棋和机器人任务中取得优异表现。尽管面临真实环境的挑战，团队仍致力于将其发展为通用知识学习工具。

🎯

❓

VideoWorld模型的主要创新点在于它利用纯视觉信号学习复杂任务，无需依赖语言模型，通过潜在动态模型压缩视频帧间变化，提高学习效率。

VideoWorld在围棋任务中达到了专业5段9×9的水平，并在机器人任务中展现了良好的学习和推理能力。

LDM在VideoWorld中用于压缩帧间视觉变化，提高知识挖掘效率，并帮助模型进行前向规划，提升决策能力。

豆包团队成立于2023年，致力于开发先进的AI大模型技术，目标是成为世界一流的研究团队。

VideoWorld模型在真实世界应用中面临高质量视频生成和多环境泛化等挑战。

VideoWorld通过训练一个包含大量视频演示数据的离线数据集，学习任务相关的映射函数，将生成的视频帧转换为任务执行所需动作。

🏷️

对话金铲铲项目团队：新赛季，我们做了个“违背祖宗”的决定
“首先，我们不会让「金铲铲」玩家无法获得金铲铲。”这是两周前的《金铲铲之战》新赛季媒体品鉴会上，项目团队对“新赛季获取金铲铲会变难吗”的回答。这款游戏在昨...
OpenAI推出始终在线的代理，消除手动团队交接的摩擦
OpenAI推出了“工作区代理”，可在团队中执行多步骤任务，如撰写报告和处理请求。这些代理在云端运行，支持跨工具共享，旨在提升团队协作效率。用户可自定义代...
基础设施的隐性成本：为什么你的团队不应该再管理它
大多数工程团队专注于产品创意和客户需求，而忽视基础设施管理，导致维护负担加重，影响工作效率。基础设施应被视为持续性系统，而非一次性任务。平台即服务（Paa...
Yelp Achieves Zero-Downtime Upgrade of Over 1,000 Cassandra Nodes
Yelp has completed a large-scale upgrade of its Apache Cassandra infrastructu...
扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋
你的 MLA 是我的基础，我的 Muon 是你的加速器。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
Axios npm供应链安全事件 - 针对Azure Pipelines客户的指导
On March 31, 2026, malicious versions of the widely used JavaScript HTTP clie...