新兴的多模态模型展示了零样本能力,但共享嵌入空间可能带来弱点。研究通过对抗性攻击将可区分文本的嵌入与任意图像对齐,揭示了语义不相关的图像可以拥有相同文本的嵌入。技术在多个来源的文本数据集和图像上成功率达到100%。
ALADIN是一种高效的图文匹配方法,通过图像文本层次对齐产生得分,并通过蒸馏得到的相关性得分学习共享的嵌入空间。该方法速度快,可与最先进的VL Transformer网络相竞争,具有横跨视觉和语言的领先地位。
完成下面两步后,将自动完成登录并继续当前操作。