本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题,提出了一个包含大量提示和图像对的数据集,并开发了多模态防御机制,以降低对抗性攻击的成功率,提高NSFW检测的准确性和召回率。
本研究提出了CE-SDWV框架,旨在解决文本到图像扩散模型生成不安全内容的问题。通过构建词汇表和应用抑制策略,实验结果表明该方法在多个基准测试中表现优异。
本研究提出了PromptGuard技术,有效减少文本到图像模型生成的不安全内容,保持高质量输出,速度提升7.8倍,最佳不安全率降至5.84%。
本研究构建了一个包含205,034个示例的中文安全基准,旨在提升大型语言模型在中文环境中识别不安全内容的能力,揭示其在安全性方面的脆弱性,并为改进提供指导。
通过自动红队框架评估模型漏洞,暴露不安全和不适当内容生成漏洞,并通过学习攻击策略提供有效的对抗提示。实验证明,该策略比基线方法更好地暴露了SD模型的漏洞。此外,该框架还显著提高了生成有害响应的概率。
完成下面两步后,将自动完成登录并继续当前操作。