视觉语言预训练模型的普适对抗扰动
内容提要
本文探讨了深度网络对抗扰动攻击的多种方法,包括生成无关对抗扰动(UAPs)和新型攻击策略。研究表明,通过优化损失函数和利用模态交互,可以显著提高对抗攻击的成功率,并在多个数据集上验证了这些方法的有效性。
关键要点
-
本文提出了一种使用预训练网络生成图像无关对抗扰动(UAPs)的方法,提升了UAPs的传递性。
-
研究展示了一种无需原始训练数据即可计算UAPs的框架,具有竞争性的检测性能。
-
总结了通用对抗攻击领域的进展,讨论了攻击和防御的挑战。
-
首次尝试针对图像检索系统生成反检索通用对抗扰动,扩展了攻击方法并在多个数据集上评估。
-
提出了一种新的基于自我增强的转移攻击方法SA-Attack,验证了其在Flickr30K和COCO数据集上的有效性。
-
综述了图像分类任务中的UAPs进展,分类为噪声攻击和生成器攻击,并评估了不同损失函数的有效性。
-
提出了一种高传递性的集合级引导攻击(SGA)方法,显著提高了对不同VLP模型的传递攻击成功率。
-
提出了一种新的通用攻击方法CD-UAP,能够生成唯一的通用扰动,针对特定类组进行欺骗。
-
展示了普适对抗扰动的存在,并提出了针对音频分类体系结构的有目标和无目标攻击的方法。
-
提出了一种生成预训练模型对抗攻击的通用扰动PAPs方法,显著提高了攻击成功率。
延伸问答
什么是无关对抗扰动(UAPs)?
无关对抗扰动(UAPs)是一种针对深度网络的攻击方法,旨在生成与特定图像无关的扰动,以欺骗模型的分类结果。
如何提高UAPs的传递性?
通过在源模型的第一层关注对抗能量的损失,可以显著提高UAPs的传递性。
SA-Attack方法的主要特点是什么?
SA-Attack是一种基于自我增强的转移攻击方法,旨在提高对不同视觉语言预训练模型的攻击成功率。
CD-UAP方法的创新之处是什么?
CD-UAP方法能够生成唯一的通用扰动,专门针对特定类组进行欺骗,而对其他类组影响有限。
本文对图像分类任务中的UAPs进行了哪些分类?
本文将图像分类任务中的UAPs分为噪声攻击和生成器攻击,并评估了不同损失函数的有效性。
如何评估通用对抗攻击的性能?
通用对抗攻击的性能可以通过在多个数据集上进行实验评估,包括使用mAP和mP @ 10等度量标准。