ROIC-DM:通过扩散模型的稳健文本推理与分类
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究发现一种名为“自然去噪扩散攻击(NDD)”的新型攻击,能够以低成本并且与模型无关、可转换为对抗性攻击。研究证实NDD攻击的有效性,能够实现88%的检测率,对93%的被试者具有隐蔽性。希望研究和数据集能够帮助社区意识到扩散模型的风险,并促进更多关于深度神经网络模型的研究。
🎯
关键要点
- 发现了一种名为“自然去噪扩散攻击(NDD)”的新型攻击。
- NDD攻击能够以低成本、与模型无关,并可转换为对抗性攻击。
- 构建了“自然去噪扩散攻击(NDDA)数据集”以评估文本-图像扩散模型的自然攻击能力风险。
- 通过用户研究证实NDD攻击的有效性,检测率达到88%,对93%的被试者具有隐蔽性。
- 扩散模型中的非稳健特征对自然攻击能力有贡献。
- 对自动驾驶汽车进行NDD攻击,发现73%的物理打印攻击被识别为停止标志。
- 希望研究和数据集能够提高社区对扩散模型风险的意识,并促进深度神经网络模型的研究。
➡️