ROIC-DM:通过扩散模型的稳健文本推理与分类
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究发现一种名为“自然去噪扩散攻击(NDD)”的新型攻击,能够以低成本并且与模型无关、可转换为对抗性攻击。研究证实NDD攻击的有效性,能够实现88%的检测率,对93%的被试者具有隐蔽性。希望研究和数据集能够帮助社区意识到扩散模型的风险,并促进更多关于深度神经网络模型的研究。
🎯
关键要点
-
发现了一种名为“自然去噪扩散攻击(NDD)”的新型攻击。
-
NDD攻击能够以低成本、与模型无关,并可转换为对抗性攻击。
-
构建了“自然去噪扩散攻击(NDDA)数据集”以评估文本-图像扩散模型的自然攻击能力风险。
-
通过用户研究证实NDD攻击的有效性,检测率达到88%,对93%的被试者具有隐蔽性。
-
扩散模型中的非稳健特征对自然攻击能力有贡献。
-
对自动驾驶汽车进行NDD攻击,发现73%的物理打印攻击被识别为停止标志。
-
希望研究和数据集能够提高社区对扩散模型风险的意识,并促进深度神经网络模型的研究。
➡️