Voyage AI ·

voyage-multimodal-3.5：具有视频支持的新一代多模态检索前沿

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

我们推出了voyage-multimodal-3.5，这是一个新一代多模态嵌入模型，支持文本、图像和视频检索。该模型在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001，特别是在文本搜索中表现突出。它通过统一的变换器编码器处理视觉和文本信息，并支持视频帧嵌入，提升了检索质量。

🎯

关键要点

推出了voyage-multimodal-3.5，这是一个新一代多模态嵌入模型，支持文本、图像和视频检索。
voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001，特别是在文本搜索中表现突出。
该模型通过统一的变换器编码器处理视觉和文本信息，并支持视频帧嵌入，提升了检索质量。
voyage-multimodal-3.5支持视频嵌入，能够实现准确的文本到视频检索。
视频以有序帧序列的形式输入模型，每1120像素计为一个token，最大支持32k tokens。
提供了视频嵌入的最佳实践，包括将长视频分割成场景、对齐分割与转录时间戳、必要时降低分辨率。
支持2048、1024、512和256维嵌入，采用Matryoshka学习和多种嵌入量化选项，最小化质量损失。
在18个多模态数据集上评估voyage-multimodal-3.5，涵盖视觉文档检索和视频检索任务。
voyage-multimodal-3.5在视觉文档检索和标准文本检索任务中均表现优于其他模型。
voyage-multimodal-3.5现已推出，采用灵活的基于token的定价，前200M tokens和150B像素免费。

🔎

延伸解读

多模态检索的优势

voyage-multimodal-3.5在多模态检索中表现出色，尤其是在文本搜索方面，其准确性超过了Cohere Embed v4和Google Multimodal Embedding 001。这一优势使得该模型在处理复杂文档和视频内容时，能够更好地理解和关联视觉与文本信息，提升用户的检索体验。

视频嵌入的最佳实践

在使用voyage-multimodal-3.5进行视频嵌入时，建议将长视频分割成场景，并与转录时间戳对齐。这不仅有助于提高检索的准确性，还能确保每个场景的语义完整性，避免信息丢失。合理的分割和对齐策略是提升视频检索质量的关键。

灵活的嵌入维度选择

voyage-multimodal-3.5支持多种维度的嵌入（2048、1024、512和256维），用户可以根据具体需求选择合适的维度。这种灵活性使得模型在不同应用场景下能够平衡性能与计算资源，适应多样化的业务需求。

❓

延伸问答

voyage-multimodal-3.5的主要功能是什么？

voyage-multimodal-3.5是一个支持文本、图像和视频检索的多模态嵌入模型。

voyage-multimodal-3.5与其他模型相比有什么优势？

voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001，特别是在文本搜索中表现突出。

如何有效嵌入视频以提高检索质量？

可以将长视频分割成场景，确保分割与转录时间戳对齐，并在必要时降低分辨率。

voyage-multimodal-3.5支持哪些维度的嵌入？

voyage-multimodal-3.5支持2048、1024、512和256维的嵌入。

voyage-multimodal-3.5的定价策略是什么？

voyage-multimodal-3.5采用基于token的灵活定价，前200M tokens和150B像素免费。

voyage-multimodal-3.5在视觉文档检索任务中的表现如何？

voyage-multimodal-3.5在视觉文档检索中表现优于其他模型，提升了30.57%。

🏷️