再审视视觉语言模型的对抗鲁棒性:一种多模态的观点

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,提高CLIP的对抗性鲁棒性。实验证明,该方法显著提高了CLIP的对抗性鲁棒性,甚至比仅进行图像攻击微调的模型更高的鲁棒性。

阅读原文 分享