量子位 ·

Gemini负责人爆料！多模态统一token表示，视觉至关重要

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

Gemini负责人Ani Baddepudi在访谈中强调了视觉在构建通用人工智能中的重要性，介绍了Gemini多模态技术的设计理念与应用。Gemini模型从一开始就支持文本、图像和视频等多种信息处理。Gemini 2.5在视频理解方面表现优异，解决了鲁棒性问题，并整合了多项视觉能力。未来，团队将专注于提升模型的自然交互性和用户体验。

🎯

关键要点

Gemini负责人Ani Baddepudi强调视觉在构建通用人工智能中的重要性。
Gemini模型从一开始就支持文本、图像和视频等多种信息处理。
Gemini 2.5在视频理解方面表现优异，解决了鲁棒性问题。
Gemini的多模态设计旨在让模型像人类一样看世界，视觉是核心组成部分。
将图像和视频转化为token时会有信息损失，但模型仍能保持良好的泛化能力。
Gemini 2.5解锁了视频作为信息媒介的能力，能够完成将视频转换为代码等任务。
Gemini的“万物皆视觉”理念指导产品开发，涵盖现有模型能力、人类专家能力及超越人类的任务。
团队致力于提升模型的自然交互性和用户体验，未来将关注模型的同理心和个性化。
多模态能力的实现需要庞大的研究团队和紧密的产品-模型反馈循环。

🔎

延伸解读

多模态设计的重要性

Gemini模型的多模态设计旨在让人工智能像人类一样理解世界。视觉是人类感知的核心，许多领域的任务都依赖于视觉信息。因此，Gemini从一开始就将文本、图像和视频整合为统一的token表示，以提升模型的整体能力和应用范围。

视频理解的技术突破

Gemini 2.5在视频理解方面的表现尤为突出，解决了以往模型在长视频处理中的鲁棒性问题。通过改进的token化方式，模型能够在较低的帧率下仍保持高性能，这为未来的应用场景，如实时视频分析，提供了更多可能性。

未来的用户体验

Ani Baddepudi提到，未来的Gemini将更加注重自然交互性和用户体验，力求让模型具备同理心和个性化。这意味着，用户与AI的互动将更加流畅和人性化，可能会改变我们与技术的交流方式。

❓

延伸问答

Gemini模型为何被设计为多模态？

Gemini模型被设计为多模态是为了让其能够像人类一样看世界，视觉是人类感知世界的核心组成部分，许多任务都有视觉成分，因此多模态能力至关重要。

Gemini 2.5在视频理解方面有哪些优势？

Gemini 2.5在视频理解方面表现优异，解决了鲁棒性问题，能够处理长上下文视频，并且解锁了将视频转换为代码等实用任务的能力。

将图像和视频转化为token时会有什么问题？

将图像和视频转化为token时会有信息损失，但Gemini模型通过看到足够多的图像和视频，仍能保持良好的泛化能力。

Gemini的“万物皆视觉”理念是什么？

Gemini的“万物皆视觉”理念指导产品开发，强调视觉在现有模型能力、人类专家能力及超越人类任务中的重要性。

Gemini团队如何提升模型的用户体验？

Gemini团队致力于提升模型的自然交互性和用户体验，关注模型的同理心和个性化，使其更友好和易于交流。

Gemini模型的多模态能力如何实现？

Gemini模型的多模态能力需要庞大的研究团队和紧密的产品-模型反馈循环，以确保每种能力都能表现出色。

🏷️