BriefGPT - AI 论文速递 ·

SafeGen: 缓解文本生成图像模型的不安全内容

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

本文探讨了文本到图像生成模型的安全性问题，提出了GuardT2I框架和安全潜在扩散（SLD）方法，以降低生成不当内容的风险。同时，介绍了SneakyPrompt攻击框架，展示其在生成不安全内容方面的优势。研究旨在提升T2I模型的鲁棒性，确保生成内容的安全性和适宜性。

🎯

❓

GuardT2I框架在对抗性场景下显著优于OpenAI-Moderation和Microsoft Azure Moderator等商业解决方案。

SneakyPrompt攻击框架使用强化学习生成可以绕过现有安全过滤器的不安全内容，成功生成NSFW内容。

SLD方法通过去除不恰当的图像部分，提升图像生成的安全性，同时不影响图像质量或文本对齐。

SDD方法能够更彻底地去除生成图像中的有害内容，同时保持整体图像质量，并能一次性去除多个概念。

MMA-Diffusion框架揭示了现有防御机制的弱点，构成对T2I模型安全性的新威胁。

研究论文使用形式化定义“harm amplification”，并开发了量化伤害扩大的方法，以解决T2I模型中的安全问题。

🏷️