量子位 ·

DeepMind率先提出CoF：视频模型有自己的思维链

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

DeepMind提出了“帧链”（CoF）概念，旨在赋予视频模型通用视觉理解能力。Veo 3模型通过简单提示生成视频，展现出感知、建模和操控能力，能够处理多种视觉任务。尽管在特定任务上不及专用模型，但其性能正在快速提升，未来有望成为机器视觉的“通用基础模型”。

🎯

关键要点

DeepMind提出了帧链CoF概念，旨在赋予视频模型通用视觉理解能力。
Veo 3模型通过简单提示生成视频，展现出感知、建模和操控能力。
Veo 3能够零样本解决多种视觉任务，未来有望成为机器视觉的通用基础模型。
视频生成模型与大语言模型（LLM）使用相同的底层逻辑，具备通用潜力。
Veo 3在感知、建模、操控和跨时空视觉推理方面表现出色。
尽管专用模型在特定任务上表现更优，但Veo 3的性能正在快速提升。
DeepMind认为未来通用模型将取代专用模型，视频模型的成本问题将逐步解决。

🏷️

继续阅读

2.4万亿参数“最强文科生”，文心5.0正式版，你挺懂山东人啊？
文心5.0正式发布，参数达到2.4万亿，具备全模态能力，表现优异。其在文本和视觉理解方面多次夺冠，展现出强大的知识整合与创造力。通过原生全模态建模，提升了...
具身智能资源汇总：机器人学习数据集，在线体验世界建模模型，英伟达/字节/小米等最新研究论文
本文系统整理了一批具身智能相关的高质量数据集、在线教程、论文，为进一步学习和研究提供参考，欢迎前往 hyper.ai 探索更多优质资源！
人工智能周报 #333 - ChatGPT 广告，智谱+华为，思维机器的动荡
OpenAI将在ChatGPT中测试广告，免费和付费用户将看到相关产品广告，广告与回答分开且不影响模型输出，敏感类别被排除。Thinking Machin...
微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频
微软推出了VibeVoice-ASR，一个开源的语音转文本模型，支持最长60分钟的音频处理，输出结构化文本，包括“谁”、“何时”、“什么”。该模型允许用户...
Ring现在可以验证视频，但这对大多数AI伪造内容可能没有帮助
Ring推出了新工具Ring Verify，用于验证视频是否未被修改。用户可以上传视频进行真实性检查，未修改的视频会显示“已验证”。但任何下载后的更改都会...
“给中国供应芯片等于卖核弹”？Anthropic CEO达沃斯激进言论震惊全场，谷歌DeepMind掌门人为何温和反击？｜AGI Demis Hassabis Dario Amodei
在2026年达沃斯论坛上，Anthropic CEO阿姆戴伊将向中国出售芯片比作向朝鲜出售核武器，认为风险极大，并批评中国科技未能赶上美国，强调芯片禁令的...

DeepMind率先提出CoF：视频模型有自己的思维链

内容提要

关键要点

标签

继续阅读