The Keyword ·

Gemini Embedding 2：我们首个原生多模态嵌入模型

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

今天发布的Gemini Embedding 2是首个完全多模态的嵌入模型，支持文本、图像、视频、音频和文档的统一处理，提升多模态任务性能，适用于100多种语言。开发者可通过Gemini API和Vertex AI使用该模型。

🎯

今天发布的Gemini Embedding 2是首个完全多模态的嵌入模型，支持文本、图像、视频、音频和文档的统一处理。
该模型适用于100多种语言，提升多模态任务性能。
Gemini Embedding 2能够处理多种输入，包括文本（最多8192个输入标记）、图像（每次请求最多6张）、视频（最多120秒）、音频（无需中间文本转录）和文档（最多6页PDF）。
模型支持同时处理多种模态的输入，捕捉不同媒体类型之间的复杂关系。
采用Matryoshka Representation Learning (MRL)技术，支持灵活的输出维度，推荐使用3072、1536、768维度以获得最佳质量。
Gemini Embedding 2在多模态深度上设立了新的性能标准，尤其在语音能力和文本、图像、视频任务上表现优异。
该模型为多种Google产品提供技术支持，帮助解锁高价值的多模态应用。
开发者可以通过Gemini API和Vertex AI开始使用Gemini Embedding 2，或通过LangChain等工具集成使用。

🔎

Gemini Embedding 2的多模态处理能力使其能够同时理解文本、图像、视频和音频等多种输入。这种统一的嵌入空间简化了复杂的数据处理流程，适用于多种应用场景，如情感分析和语义搜索，提升了任务的准确性和效率。

该模型采用Matryoshka Representation Learning技术，允许开发者根据需求灵活调整输出维度。推荐的3072、1536和768维度设置可以在性能和存储成本之间取得良好平衡，适应不同的应用需求。

Gemini Embedding 2为多种Google产品提供技术支持，能够解锁高价值的多模态应用。然而，开发者在使用时需注意数据隐私和安全性，确保处理的数据符合相关法规和标准，以避免潜在的法律风险。

❓

Gemini Embedding 2是首个完全多模态的嵌入模型，支持文本、图像、视频、音频和文档的统一处理。

该模型支持文本、图像、视频、音频和文档等多种输入类型。

通过统一处理多种模态的输入，Gemini Embedding 2能够捕捉不同媒体类型之间的复杂关系，从而提升多模态任务性能。

开发者可以通过Gemini API和Vertex AI开始使用Gemini Embedding 2，或通过LangChain等工具集成使用。

推荐使用3072、1536、768维度以获得最佳质量。

Gemini Embedding 2设立了新的性能标准，尤其在语音能力和文本、图像、视频任务上表现优异。

🏷️