量子位 ·

DeepMind率先提出CoF：视频模型有自己的思维链

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

DeepMind提出了“帧链”（CoF）概念，旨在赋予视频模型通用视觉理解能力。Veo 3模型通过简单提示生成视频，展现出感知、建模和操控能力，能够处理多种视觉任务。尽管在特定任务上不及专用模型，但其性能正在快速提升，未来有望成为机器视觉的“通用基础模型”。

🎯

🔎

DeepMind提出的Veo 3模型展现了通用视觉理解能力，能够在未经过专门训练的情况下完成多种视觉任务。这一特性使得Veo 3在未来有望成为机器视觉领域的基础模型，推动视觉智能的发展。

尽管Veo 3在特定任务上仍不及专用模型，但其性能正在快速提升。随着技术进步，通用模型有可能逐步缩小与专用模型的差距，类似于早期大语言模型的发展历程。

当前视频生成模型的成本高于专用模型，但随着技术的进步和市场的成熟，成本有望逐步降低。历史上，通用模型在NLP领域的成功表明，视频模型也可能走上类似的道路。

❓

CoF（帧链）是DeepMind提出的概念，旨在赋予视频模型通用视觉理解能力，类似于语言模型中的链式思维。

Veo 3模型具备感知、建模、操控和跨时空视觉推理四大能力。

尽管在特定任务上专用模型表现更优，但Veo 3的性能正在快速提升，未来有望成为通用基础模型。

DeepMind认为未来通用模型将取代专用模型，视频模型的成本问题将逐步解决。

Veo 3通过简单提示生成视频，使用初始图和文字指令，无需专门训练即可完成任务。

Veo 3在视觉推理测试中表现出色，成功率达到78%，显示出视觉智能的雏形。

🏷️