Gemini Embedding 2:我们首个原生多模态嵌入模型

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

今天发布的Gemini Embedding 2是首个完全多模态的嵌入模型,支持文本、图像、视频、音频和文档的统一处理,提升多模态任务性能,适用于100多种语言。开发者可通过Gemini API和Vertex AI使用该模型。

🎯

关键要点

  • 今天发布的Gemini Embedding 2是首个完全多模态的嵌入模型,支持文本、图像、视频、音频和文档的统一处理。
  • 该模型适用于100多种语言,提升多模态任务性能。
  • Gemini Embedding 2能够处理多种输入,包括文本(最多8192个输入标记)、图像(每次请求最多6张)、视频(最多120秒)、音频(无需中间文本转录)和文档(最多6页PDF)。
  • 模型支持同时处理多种模态的输入,捕捉不同媒体类型之间的复杂关系。
  • 采用Matryoshka Representation Learning (MRL)技术,支持灵活的输出维度,推荐使用3072、1536、768维度以获得最佳质量。
  • Gemini Embedding 2在多模态深度上设立了新的性能标准,尤其在语音能力和文本、图像、视频任务上表现优异。
  • 该模型为多种Google产品提供技术支持,帮助解锁高价值的多模态应用。
  • 开发者可以通过Gemini API和Vertex AI开始使用Gemini Embedding 2,或通过LangChain等工具集成使用。
➡️

继续阅读