文本引导注意力是实现视觉语言模型零样本鲁棒性的全部需要

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

该研究提出了一种新的文本图像相互感知方法,旨在提升CLIP模型的零-shot对抗鲁棒性和泛化能力。通过引入最小超球能量和文本感知图像调整机制,实验结果表明该方法在抵御对抗扰动的同时,保持了模型的零-shot泛化能力。

🎯

关键要点

  • 提出了一种新的文本图像相互感知(TIMA)方法,旨在提升CLIP模型的零-shot对抗鲁棒性和泛化能力。
  • 该方法在小型对抗扰动下实现了零-shot对抗鲁棒性和泛化之间的良好权衡,但在大型对抗扰动下未能达到预期效果。
  • 通过引入最小超球能量(MHE),提高了文本嵌入的跨类别距离,并保持了不同类别之间的语义信息。
  • 引入文本感知图像(TAI)调整机制,通过自适应边界增加图像嵌入之间的跨类别距离。
  • 实验结果表明,该方法在防御对抗扰动的同时,保持了原始CLIP模型的零-shot泛化能力。
➡️

继续阅读