AdvI2I：针对图像到图像扩散模型的对抗图像攻击

本研究解决了扩散模型在图像合成中引发的安全问题，特别是生成不适宜工作（NSFW）内容的风险。提出了一种新的框架AdvI2I，通过操控输入图像来诱导扩散模型生成NSFW内容，且不依赖于易被检测的文本提示。实验表明，AdvI2I及其增强版AdvI2I-Adaptive能够有效绕过当前的安全防护措施，突显了加强针对I2I扩散模型滥用的安全措施的迫切需求。

本文探讨了文本到图像（T2I）模型的安全性，特别关注“隐式对抗”提示。研究团队通过Adversarial Nibbler Challenge收集了超过10,000个提示-图像对，发现14%的有害图像被误标为“安全”。强调了持续审核和适应性的重要性，以增强T2I模型的鲁棒性。

T2I模型安全性审核扩散模型隐式对抗鲁棒性