扩散模型的引人入胜特性:用于评估文本到图像生成模型自然攻击能力的大规模数据集
原文中文,约500字,阅读约需2分钟。发表于: 。通过发现深度神经网络模型仍能保持预测能力,即使有意删除其对人类视觉系统至关重要的稳健特征,我们识别出了一种名为 “自然去噪扩散攻击(NDD)” 的新型攻击。该攻击能够以低成本并且与模型无关、可转换为对抗性攻击,并利用扩散模型中的自然攻击能力。我们构建了一个大规模数据集 “自然去噪扩散攻击(NDDA)数据集”,来系统评估最新的文本 - 图像扩散模型的自然攻击能力的风险。我们通过回答 6...
通过删除稳健特征,我们发现了一种名为“自然去噪扩散攻击”的新型攻击。我们构建了大规模数据集评估文本-图像扩散模型的攻击能力,并证实了攻击的有效性。非稳健特征对于自然攻击能力起到了贡献作用。我们对一辆自动驾驶汽车进行了攻击,发现物理打印的攻击能够被识别为停止标志。希望我们的研究和数据集能够提高社区对扩散模型风险的认识,并推动深度神经网络模型的研究。