再审视视觉语言模型的对抗鲁棒性:一种多模态的观点

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,提高CLIP的对抗性鲁棒性。实验证明,该方法显著提高了CLIP的对抗性鲁棒性,甚至比仅进行图像攻击微调的模型更高的鲁棒性。

🎯

关键要点

  • 研究视觉语言模型(VLMs)的自适应对抗性鲁棒性。

  • 引入了一种多模态对抗性攻击策略。

  • 在图像和文本编码器上采用多模态对比对抗性训练损失。

  • 提高了CLIP的对抗性鲁棒性。

  • 在15个数据集上进行的实验表明,该方法显著提高了CLIP的对抗性鲁棒性。

  • 经过多模态对抗性攻击的模型比仅进行图像攻击微调的模型表现出更高的鲁棒性。

➡️

继续阅读