本文介绍了一种新型对抗攻击方法DiffAttack,利用扩散模型生成隐蔽扰动以提升攻击成功率。同时提出了自然去噪扩散攻击(NDD),实现低成本的对抗性攻击,并构建了NDDA数据集以评估风险。实验表明,扩散模型的非稳健特征影响自然攻击能力,提出了Score Distillation Sampling策略以保护图像。研究强调了生成扩散模型的安全性问题,并提出了相应的防御措施。
研究发现一种名为“自然去噪扩散攻击(NDD)”的新型攻击,能够以低成本并且与模型无关、可转换为对抗性攻击。研究证实NDD攻击的有效性,能够实现88%的检测率,对93%的被试者具有隐蔽性。希望研究和数据集能够帮助社区意识到扩散模型的风险,并促进更多关于深度神经网络模型的研究。
通过删除稳健特征,我们发现了一种名为“自然去噪扩散攻击”的新型攻击。我们构建了大规模数据集评估文本-图像扩散模型的攻击能力,并证实了攻击的有效性。非稳健特征对于自然攻击能力起到了贡献作用。我们对一辆自动驾驶汽车进行了攻击,发现物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够提高社区对扩散模型风险的认识,并推动深度神经网络模型的研究。
完成下面两步后,将自动完成登录并继续当前操作。