UniME框架由格灵深瞳和阿里ModelScope等团队联合发布,刷新了MMEB训练榜纪录。该框架通过文本判别知识蒸馏和困难负样本增强微调,显著提升了多模态理解能力,适用于多种下游任务,并已开源。
UniME框架通过文本知识蒸馏和困难负样本增强,克服了CLIP在多模态嵌入中的局限性,提升了图文检索和视觉问答的性能,在多个基准测试中表现优异,证明了其在复杂应用中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。