BriefGPT - AI 论文速递 ·

暗矿：防御文本到图像扩散模型的不安全生成

💡 原文中文，约1700字，阅读约需4分钟。

📝

内容提要

该研究提出了SneakyPrompt攻击框架，利用强化学习生成可绕过文本到图像生成模型的安全过滤器的内容。实验结果表明，该方法在生成不安全内容方面优于现有技术。研究还探讨了模型的鲁棒性，提出了多种防御措施，并强调了持续审核和适应性的重要性，以应对生成敏感内容的风险。

🎯

该研究提出SneakyPrompt攻击框架，利用强化学习生成可绕过文本到图像生成模型的安全过滤器的不安全内容。
实验结果显示SneakyPrompt在生成NSFW内容方面优于现有对抗攻击技术。
研究评估了文本到图像生成模型的鲁棒性，并提出了多种防御措施以应对生成敏感内容的风险。
通过构建Adversarial Nibbler Challenge，研究者收集了超过10,000个提示-图像对的安全机器注释，发现14%的有害图像被机器错误标记为安全。
研究强调了对新漏洞的持续审核和适应性的重要性，以确保T2I模型的鲁棒性。
SafeGen框架通过消除不安全的视觉表示，提高了抵御对抗性提示的能力，达到了99.1%的性别内容去除性能。
提出的稳健遗忘框架AdvUnlearn提高了概念遗忘的鲁棒性，并在各种场景中表现出优势。
新方法RACE显著降低了对抗性文本嵌入的攻击成功率，强调了积极防御措施的重要性。
研究还提出了ART自动红队框架，结合视觉语言模型和大型语言模型，识别文本转图像模型的漏洞。

❓

SneakyPrompt攻击框架利用强化学习生成可绕过文本到图像生成模型的安全过滤器的不安全内容。

研究发现最新的文本到图像生成模型可能会生成危险、令人讨厌和恶毒的图片。

通过构建Adversarial Nibbler Challenge，研究者收集提示-图像对并进行安全机器注释，以评估模型的鲁棒性。

SafeGen框架通过消除不安全的视觉表示，提高了抵御对抗性提示的能力，达到了99.1%的性别内容去除性能。

AdvUnlearn框架提高了概念遗忘的鲁棒性，并在各种场景中表现出优势。

RACE方法通过增强概念抹除的鲁棒性，显著降低了对抗性文本嵌入的攻击成功率，减少了“裸露”概念攻击的ASR攻击率30个百分点。

🏷️