量子位 ·

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

谷歌推出Gemini Embedding 2，这是首个原生多模态嵌入模型，能够将文本、图像、视频、音频和文档映射到同一语义空间，提升AI Agent对现实世界的理解，为多模态应用奠定基础。

🎯

🔎

Gemini Embedding 2的推出标志着多模态数据处理的重大进展。通过将文本、图像、视频和音频映射到同一语义空间，模型能够更好地捕捉不同媒介之间的复杂关系。这种能力不仅提升了AI对现实世界的理解，也为多模态应用的开发提供了新的可能性。

Gemini Embedding 2采用Matryoshka Representation Learning（MRL）技术，允许动态维度缩减。这意味着开发者可以根据需求调整模型的输出维度，从而在性能与存储成本之间取得平衡。这种灵活性将推动多模态Agent和具身智能机器人的发展，拓宽AI应用的边界。

Gemini Embedding 2为AI Agent提供了更全面的感知能力，使其不仅依赖文本信息，还能理解视觉和听觉信息。这种跨模态的理解能力将使AI Agent在操作电脑时更加智能，能够识别图标和按钮的功能，提升用户体验和操作效率。

❓

Gemini Embedding 2是谷歌推出的首个原生多模态嵌入模型，能够将文本、图像、视频、音频和文档映射到同一语义空间。

该模型支持单一模态和多模态混合输入，能够捕捉不同媒体之间的复杂语义关系。

Gemini Embedding 2整体性能较上一代提升，为多模态嵌入任务树立了新的性能基准。

它为AI Agent提供了理解现实世界的基础，使其能够更准确地识别和操作屏幕上的信息。

该模型采用了Matryoshka Representation Learning（MRL）技术，支持动态维度缩减。

它支持文本、图像、视频、音频和文档等多种数据类型。

🏷️