💡
原文英文,约1100词,阅读约需4分钟。
📝
内容提要
我们推出了voyage-multimodal-3.5,这是一个新一代多模态嵌入模型,支持文本、图像和视频检索。该模型在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。它通过统一的变换器编码器处理视觉和文本信息,并支持视频帧嵌入,提升了检索质量。
🎯
关键要点
- 推出了voyage-multimodal-3.5,这是一个新一代多模态嵌入模型,支持文本、图像和视频检索。
- voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。
- 该模型通过统一的变换器编码器处理视觉和文本信息,并支持视频帧嵌入,提升了检索质量。
- voyage-multimodal-3.5支持视频嵌入,能够实现准确的文本到视频检索。
- 视频以有序帧序列的形式输入模型,每1120像素计为一个token,最大支持32k tokens。
- 提供了视频嵌入的最佳实践,包括将长视频分割成场景、对齐分割与转录时间戳、必要时降低分辨率。
- 支持2048、1024、512和256维嵌入,采用Matryoshka学习和多种嵌入量化选项,最小化质量损失。
- 在18个多模态数据集上评估voyage-multimodal-3.5,涵盖视觉文档检索和视频检索任务。
- voyage-multimodal-3.5在视觉文档检索和标准文本检索任务中均表现优于其他模型。
- voyage-multimodal-3.5现已推出,采用灵活的基于token的定价,前200M tokens和150B像素免费。
❓
延伸问答
voyage-multimodal-3.5的主要功能是什么?
voyage-multimodal-3.5是一个支持文本、图像和视频检索的多模态嵌入模型。
voyage-multimodal-3.5与其他模型相比有什么优势?
voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。
如何有效嵌入视频以提高检索质量?
可以将长视频分割成场景,确保分割与转录时间戳对齐,并在必要时降低分辨率。
voyage-multimodal-3.5支持哪些维度的嵌入?
voyage-multimodal-3.5支持2048、1024、512和256维的嵌入。
voyage-multimodal-3.5的定价策略是什么?
voyage-multimodal-3.5采用基于token的灵活定价,前200M tokens和150B像素免费。
voyage-multimodal-3.5在视觉文档检索任务中的表现如何?
voyage-multimodal-3.5在视觉文档检索中表现优于其他模型,提升了30.57%。
➡️