Jina AI ·

Jina CLIP v2：用于文本和图像的多语言多模态嵌入

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

jina-clip-v2是新发布的多模态嵌入模型，支持89种语言，图像分辨率提升至512x512，性能较v1提高3%。该模型结合文本和视觉编码器，适用于多种检索任务，表现优异。

🎯

关键要点

jina-clip-v2是新发布的多模态嵌入模型，支持89种语言。
该模型的图像分辨率提升至512x512，性能较v1提高3%。
jina-clip-v2结合文本和视觉编码器，适用于多种检索任务，表现优异。
v2的文本编码器可以作为有效的多语言长文本密集检索器。
在多语言图像检索任务中，jina-clip-v2相比于nllb-clip-large-siglip有高达4%的性能提升。
v2支持将文本和图像嵌入的输出维度从1024截断至64，减少存储和处理开销。
jina-clip-v2的文本编码器在多语言MTEB基准测试中表现强劲，检索任务得分为69.86%。
在标准跨模态检索基准测试中，jina-clip-v2在Flickr30k图像到文本检索中达到98.0%的性能。
在多语言跨模态基准测试中，jina-clip-v2在图像到文本检索中表现优异，超越NLLB-SigLIP。
jina-clip-v2在图像分类基准测试中表现出色，支持高达94%的维度压缩而性能损失最小。

❓

延伸问答

jina-clip-v2的主要功能是什么？

jina-clip-v2是一个多模态嵌入模型，支持文本和图像的检索，能够处理89种语言，并在多种检索任务中表现优异。

jina-clip-v2相比于v1有哪些性能提升？

jina-clip-v2在文本和图像检索任务中性能提高了3%，并支持更高的图像分辨率（512x512）。

jina-clip-v2如何支持多语言检索？

jina-clip-v2支持89种语言的多语言图像检索，性能在多语言任务中比nllb-clip-large-siglip提高了4%。

jina-clip-v2的图像分辨率有什么变化？

jina-clip-v2的图像分辨率从v1的224x224提升至512x512，能够更好地处理细节丰富的图像。

jina-clip-v2的嵌入维度可以如何调整？

用户可以将文本和图像嵌入的输出维度从1024截断至64，从而减少存储和处理开销。

jina-clip-v2在图像到文本检索中表现如何？

在Flickr30k图像到文本检索中，jina-clip-v2达到了98.0%的性能，表现优于其前身和其他模型。

🏷️

继续阅读

早报｜Claude官宣接入Adobe全家桶等生产力软件/微信朋友圈灰测改版/曝索尼PS5数字版游戏新增「30天联网验证」机制
OpenAI面临营收压力，CFO担忧无法支付算力账单。百度调整职级体系为数字级别，强调复合型人才。Anthropic推出9个创作连接器，支持多种主流软件。...
Go 1.27 将默认开启 SIMD for amd64，可移植 SIMD 包提案出炉
Go 1.27默认开启SIMD支持，解决了性能瓶颈。新版本引入架构绑定的simd/archsimd和架构无关的simd，提升了可移植性和性能。开发者可通过...
Saltyfish咸鱼云CN2 GIA特惠：美国/德国/荷兰VPS，19.5美元/季
Saltyfish咸鱼云提供优化的海外VPS服务，主要面向国内用户。机房位于美国、德国和荷兰，价格从19.5美元/季起，支持支付宝和银联支付，性价比高，适...
2026 04 29 HackerNews
谷歌计划自2026年9月起强制安卓开发者实名注册，未遵从者将被全球封锁，此举可能影响独立开发者和用户自由。社区呼吁使用F-Droid等替代应用商店以抵制此...
阴谋论视频创作者迎来黄金时段
白宫记者晚宴后，阴谋论视频创作者在TikTok和YouTube迅速崛起，声称事件是虚假旗帜行动。尽管传统媒体已有报道，这些视频仍吸引大量观众，反映出人们对...
你的数据正在喂养 AI：从 Atlassian 公告，看科技平台的数据训练默认政策
Atlassian 宣布默认使用用户数据训练 AI，引发行业关注。许多平台如 ChatGPT 和 GitHub Copilot 也采取类似政策，用户数据默...