voyage-multimodal-3.5:具有视频支持的新一代多模态检索前沿

voyage-multimodal-3.5:具有视频支持的新一代多模态检索前沿

💡 原文英文,约1100词,阅读约需4分钟。
📝

内容提要

我们推出了voyage-multimodal-3.5,这是一个新一代多模态嵌入模型,支持文本、图像和视频检索。该模型在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。它通过统一的变换器编码器处理视觉和文本信息,并支持视频帧嵌入,提升了检索质量。

🎯

关键要点

  • 推出了voyage-multimodal-3.5,这是一个新一代多模态嵌入模型,支持文本、图像和视频检索。

  • voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。

  • 该模型通过统一的变换器编码器处理视觉和文本信息,并支持视频帧嵌入,提升了检索质量。

  • voyage-multimodal-3.5支持视频嵌入,能够实现准确的文本到视频检索。

  • 视频以有序帧序列的形式输入模型,每1120像素计为一个token,最大支持32k tokens。

  • 提供了视频嵌入的最佳实践,包括将长视频分割成场景、对齐分割与转录时间戳、必要时降低分辨率。

  • 支持2048、1024、512和256维嵌入,采用Matryoshka学习和多种嵌入量化选项,最小化质量损失。

  • 在18个多模态数据集上评估voyage-multimodal-3.5,涵盖视觉文档检索和视频检索任务。

  • voyage-multimodal-3.5在视觉文档检索和标准文本检索任务中均表现优于其他模型。

  • voyage-multimodal-3.5现已推出,采用灵活的基于token的定价,前200M tokens和150B像素免费。

🔎

延伸解读

多模态检索的优势

voyage-multimodal-3.5在多模态检索中表现出色,尤其是在文本搜索方面,其准确性超过了Cohere Embed v4和Google Multimodal Embedding 001。这一优势使得该模型在处理复杂文档和视频内容时,能够更好地理解和关联视觉与文本信息,提升用户的检索体验。

视频嵌入的最佳实践

在使用voyage-multimodal-3.5进行视频嵌入时,建议将长视频分割成场景,并与转录时间戳对齐。这不仅有助于提高检索的准确性,还能确保每个场景的语义完整性,避免信息丢失。合理的分割和对齐策略是提升视频检索质量的关键。

灵活的嵌入维度选择

voyage-multimodal-3.5支持多种维度的嵌入(2048、1024、512和256维),用户可以根据具体需求选择合适的维度。这种灵活性使得模型在不同应用场景下能够平衡性能与计算资源,适应多样化的业务需求。

延伸问答

voyage-multimodal-3.5的主要功能是什么?

voyage-multimodal-3.5是一个支持文本、图像和视频检索的多模态嵌入模型。

voyage-multimodal-3.5与其他模型相比有什么优势?

voyage-multimodal-3.5在检索准确性上优于Cohere Embed v4和Google Multimodal Embedding 001,特别是在文本搜索中表现突出。

如何有效嵌入视频以提高检索质量?

可以将长视频分割成场景,确保分割与转录时间戳对齐,并在必要时降低分辨率。

voyage-multimodal-3.5支持哪些维度的嵌入?

voyage-multimodal-3.5支持2048、1024、512和256维的嵌入。

voyage-multimodal-3.5的定价策略是什么?

voyage-multimodal-3.5采用基于token的灵活定价,前200M tokens和150B像素免费。

voyage-multimodal-3.5在视觉文档检索任务中的表现如何?

voyage-multimodal-3.5在视觉文档检索中表现优于其他模型,提升了30.57%。

🏷️

标签

➡️

继续阅读