💡 原文英文,约1900词,阅读约需7分钟。
📝

内容提要

今天发布的jina-embeddings-v4是一个包含38亿参数的通用嵌入模型,支持文本和图像处理,特别在视觉内容检索方面表现优异,超越了主要竞争对手的闭源模型。该模型支持单向量和多向量嵌入,提升了检索性能。

🎯

关键要点

  • 今天发布的jina-embeddings-v4是一个包含38亿参数的通用嵌入模型,支持文本和图像处理。
  • 该模型在视觉内容检索方面表现优异,超越了主要竞争对手的闭源模型。
  • jina-embeddings-v4支持单向量和多向量嵌入,提升了检索性能。
  • 模型在多模态和多语言任务上取得了最先进的检索性能,特别是在处理视觉丰富内容方面。
  • jina-embeddings-v4在多语言检索上比OpenAI的文本嵌入模型性能提升12%。
  • 该模型的架构基于Qwen2.5-VL-3B-Instruct,支持文本和图像的联合处理。
  • v4的升级从文本嵌入转向多模态嵌入,满足了对文本和视觉内容统一表示的需求。
  • v4引入了双输出系统,支持单向量和多向量嵌入,适应不同的检索场景。
  • 尽管v4的参数数量是v3的6.7倍,但文本性能的提升相对较小,主要是为了满足多模态需求。
  • jina-embeddings-v4在视觉文档检索方面的能力是v3所不具备的,体现了多模态功能的投资。
  • 用户可以通过API使用jina-embeddings-v4,支持文本字符串、base64编码的图像或图像URL。
  • jina-embeddings-v4将很快在AWS、Azure和GCP上直接提供。
  • 该模型代表了我们在嵌入模型领域的重大飞跃,支持密集和延迟交互检索,超越了Google、OpenAI和Voyage AI的专有模型。
➡️

继续阅读