小红花·文摘

本文介绍了一种新型对抗攻击方法DiffAttack，利用扩散模型生成隐蔽扰动以提升攻击成功率。同时提出了自然去噪扩散攻击（NDD），实现低成本的对抗性攻击，并构建了NDDA数据集以评估风险。实验表明，扩散模型的非稳健特征影响自然攻击能力，提出了Score Distillation Sampling策略以保护图像。研究强调了生成扩散模型的安全性问题，并提出了相应的防御措施。

像素并非障碍：针对像素域扩散模型的有效规避攻击

BriefGPT - AI 论文速递 ·

研究发现一种名为“自然去噪扩散攻击（NDD）”的新型攻击，能够以低成本并且与模型无关、可转换为对抗性攻击。研究证实NDD攻击的有效性，能够实现88%的检测率，对93%的被试者具有隐蔽性。希望研究和数据集能够帮助社区意识到扩散模型的风险，并促进更多关于深度神经网络模型的研究。

ROIC-DM：通过扩散模型的稳健文本推理与分类

BriefGPT - AI 论文速递 ·

通过删除稳健特征，我们发现了一种名为“自然去噪扩散攻击”的新型攻击。我们构建了大规模数据集评估文本-图像扩散模型的攻击能力，并证实了攻击的有效性。非稳健特征对于自然攻击能力起到了贡献作用。我们对一辆自动驾驶汽车进行了攻击，发现物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够提高社区对扩散模型风险的认识，并推动深度神经网络模型的研究。

扩散模型的引人入胜特性：用于评估文本到图像生成模型自然攻击能力的大规模数据集

BriefGPT - AI 论文速递 ·