UniME框架通过文本知识蒸馏和困难负样本增强,克服了CLIP在多模态嵌入中的局限性,提升了图文检索和视觉问答的性能,在多个基准测试中表现优异,证明了其在复杂应用中的有效性。
智源研究院与高校联合开发的多模态向量模型BGE-VL,基于MegaPairs数据集,显著提升了图文检索性能,数据量仅为传统方法的1/70,训练效果显著。技术报告已发布,相关资源将向社区开放。
完成下面两步后,将自动完成登录并继续当前操作。