非对齐万事通:或在多模态模型中将任何文本对齐到任何图像
原文中文,约400字,阅读约需1分钟。发表于: 。通过共享嵌入空间,新兴的多模态模型展示了空前的零样本能力。然而,如果不同的模态存在错位,共享嵌入空间可能会带来新的弱点。本文通过最小程度地修改图像来匹配给定文本的嵌入,展示了使用最近开发的有效基于梯度的过程,证明了我们能够通过不可察觉的对抗性攻击将可区分文本的嵌入与任意图像对齐,揭示了语义不相关的图像可以拥有相同文本的嵌入,并且在视觉上难以区分的图像可以与非常不同的文本的嵌入匹配。我们的技术...
新兴的多模态模型展示了零样本能力,但共享嵌入空间可能带来弱点。研究通过对抗性攻击将可区分文本的嵌入与任意图像对齐,揭示了语义不相关的图像可以拥有相同文本的嵌入。技术在多个来源的文本数据集和图像上成功率达到100%。