voyage-multimodal-3.5:具有视频支持的新一代多模态检索前沿

voyage-multimodal-3.5:具有视频支持的新一代多模态检索前沿

💡 原文英文,约1100词,阅读约需4分钟。
📝

内容提要

我们推出了voyage-multimodal-3.5,这是一个新一代多模态嵌入模型,支持文本、图像和视频检索。该模型在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。它通过统一的变换器编码器处理视觉和文本信息,并支持视频帧嵌入,提升了检索质量。

🎯

关键要点

  • 推出了voyage-multimodal-3.5,这是一个新一代多模态嵌入模型,支持文本、图像和视频检索。
  • voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。
  • 该模型通过统一的变换器编码器处理视觉和文本信息,并支持视频帧嵌入,提升了检索质量。
  • voyage-multimodal-3.5支持视频嵌入,能够实现准确的文本到视频检索。
  • 视频以有序帧序列的形式输入模型,每1120像素计为一个token,最大支持32k tokens。
  • 提供了视频嵌入的最佳实践,包括将长视频分割成场景、对齐分割与转录时间戳、必要时降低分辨率。
  • 支持2048、1024、512和256维嵌入,采用Matryoshka学习和多种嵌入量化选项,最小化质量损失。
  • 在18个多模态数据集上评估voyage-multimodal-3.5,涵盖视觉文档检索和视频检索任务。
  • voyage-multimodal-3.5在视觉文档检索和标准文本检索任务中均表现优于其他模型。
  • voyage-multimodal-3.5现已推出,采用灵活的基于token的定价,前200M tokens和150B像素免费。

延伸问答

voyage-multimodal-3.5的主要功能是什么?

voyage-multimodal-3.5是一个支持文本、图像和视频检索的多模态嵌入模型。

voyage-multimodal-3.5与其他模型相比有什么优势?

voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。

如何有效嵌入视频以提高检索质量?

可以将长视频分割成场景,确保分割与转录时间戳对齐,并在必要时降低分辨率。

voyage-multimodal-3.5支持哪些维度的嵌入?

voyage-multimodal-3.5支持2048、1024、512和256维的嵌入。

voyage-multimodal-3.5的定价策略是什么?

voyage-multimodal-3.5采用基于token的灵活定价,前200M tokens和150B像素免费。

voyage-multimodal-3.5在视觉文档检索任务中的表现如何?

voyage-multimodal-3.5在视觉文档检索中表现优于其他模型,提升了30.57%。

➡️

继续阅读