文本引导注意力是实现视觉语言模型零样本鲁棒性的全部需要
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
该研究提出了一种新的文本图像相互感知方法,旨在提升CLIP模型的零-shot对抗鲁棒性和泛化能力。通过引入最小超球能量和文本感知图像调整机制,实验结果表明该方法在抵御对抗扰动的同时,保持了模型的零-shot泛化能力。
🎯
关键要点
- 提出了一种新的文本图像相互感知(TIMA)方法,旨在提升CLIP模型的零-shot对抗鲁棒性和泛化能力。
- 该方法在小型对抗扰动下实现了零-shot对抗鲁棒性和泛化之间的良好权衡,但在大型对抗扰动下未能达到预期效果。
- 通过引入最小超球能量(MHE),提高了文本嵌入的跨类别距离,并保持了不同类别之间的语义信息。
- 引入文本感知图像(TAI)调整机制,通过自适应边界增加图像嵌入之间的跨类别距离。
- 实验结果表明,该方法在防御对抗扰动的同时,保持了原始CLIP模型的零-shot泛化能力。
➡️