AdvI2I:针对图像到图像扩散模型的对抗图像攻击
原文中文,约600字,阅读约需2分钟。发表于: 。本研究解决了扩散模型在图像合成中引发的安全问题,特别是生成不适宜工作(NSFW)内容的风险。提出了一种新的框架AdvI2I,通过操控输入图像来诱导扩散模型生成NSFW内容,且不依赖于易被检测的文本提示。实验表明,AdvI2I及其增强版AdvI2I-Adaptive能够有效绕过当前的安全防护措施,突显了加强针对I2I扩散模型滥用的安全措施的迫切需求。
本文探讨了文本到图像(T2I)模型的安全性,特别关注“隐式对抗”提示。研究团队通过Adversarial Nibbler Challenge收集了超过10,000个提示-图像对,发现14%的有害图像被误标为“安全”。强调了持续审核和适应性的重要性,以增强T2I模型的鲁棒性。