小红花·文摘

本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题，提出了一个包含大量提示和图像对的数据集，并开发了多模态防御机制，以降低对抗性攻击的成功率，提高NSFW检测的准确性和召回率。