扩散模型的引人入胜特性:用于评估文本到图像生成模型自然攻击能力的大规模数据集
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
通过删除稳健特征,我们发现了一种名为“自然去噪扩散攻击”的新型攻击。我们构建了大规模数据集评估文本-图像扩散模型的攻击能力,并证实了攻击的有效性。非稳健特征对于自然攻击能力起到了贡献作用。我们对一辆自动驾驶汽车进行了攻击,发现物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够提高社区对扩散模型风险的认识,并推动深度神经网络模型的研究。
🎯
关键要点
- 通过删除稳健特征,识别出一种名为“自然去噪扩散攻击(NDD)”的新型攻击。
- NDD攻击能够以低成本、与模型无关,并可转换为对抗性攻击。
- 构建了大规模数据集“自然去噪扩散攻击(NDDA)数据集”,评估文本-图像扩散模型的自然攻击能力风险。
- 通过回答6个研究问题和用户研究,证实NDD攻击的有效性,检测率达到88%,对93%的被试者具有隐蔽性。
- 发现扩散模型中的非稳健特征对自然攻击能力有贡献。
- 对一辆自动驾驶汽车进行NDD攻击,73%的物理打印攻击被识别为停止标志。
- 希望研究和数据集能提高社区对扩散模型风险的认识,并促进深度神经网络模型的研究。
➡️