本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题,提出了一个包含大量提示和图像对的数据集,并开发了多模态防御机制,以降低对抗性攻击的成功率,提高NSFW检测的准确性和召回率。
本研究提出了CE-SDWV框架,旨在解决文本到图像扩散模型生成不安全内容的问题。该方法通过构建相关词汇表和应用语义抑制策略,有效擦除目标概念,无需重新训练模型,实验结果表明其在多个基准测试中表现良好。
本研究提出了PromptGuard,一种新颖的内容管理技术,旨在减少文本到图像模型生成的不安全内容。研究表明,PromptGuard能有效将不安全内容生成率降低至5.84%,且速度比传统方法快7.8倍。
本研究探讨大型视觉语言模型(LVLMs)在安全性方面的不足,提出了安全雪球代理(SSA)框架,通过安全图像和提示诱导模型生成不安全内容,以挑战多模态系统的安全性。
本研究提出了中文安全基准(ChineseSafe),用于评估大型语言模型识别不安全内容的能力。基准包含205,034个示例,涵盖政治敏感性和色情等非法内容类型。研究发现,大多数大型语言模型在安全问题上存在脆弱性,可能面临法律风险,并为开发者提供了改进建议。
该研究提出了SneakyPrompt攻击框架,利用强化学习生成可绕过文本到图像生成模型的安全过滤器的内容。实验结果表明,该方法在生成不安全内容方面优于现有技术。研究还探讨了模型的鲁棒性,提出了多种防御措施,并强调了持续审核和适应性的重要性,以应对生成敏感内容的风险。
通过自动红队框架评估模型漏洞,暴露不安全和不适当内容生成漏洞,并通过学习攻击策略提供有效的对抗提示。实验证明,该策略比基线方法更好地暴露了SD模型的漏洞。此外,该框架还显著提高了生成有害响应的概率。
完成下面两步后,将自动完成登录并继续当前操作。