在ColPali模型实验中,工程师使用jina-clip-v2模型可视化图像与文本的嵌入相似性,生成热图。尽管这种可视化提供了有趣的洞察,但并非模型的主要目标,而是偶然结果。CLIP模型通过全局对比学习训练,未直接监督图像区域与文本标记的对应关系,因此局部对齐现象缺乏可靠性。
jina-clip-v2是新发布的多模态嵌入模型,支持89种语言,图像分辨率提升至512x512,性能较v1提高3%。该模型结合文本和视觉编码器,适用于多种检索任务,表现优异。
完成下面两步后,将自动完成登录并继续当前操作。