小红花·文摘 - 小红花技术领袖俱乐部

本研究针对文本到图像(T2I)模型生成不安全内容(NSFW)的问题，提出了一个包含大量提示和图像对的数据集，并开发了多模态防御机制，以降低对抗性攻击的成功率，提高NSFW检测的准确性和召回率。

Towards Safe Synthetic Image Generation: A Multimodal Robust NSFW Defense and Million Scale Dataset

BriefGPT - AI 论文速递 ·

本研究提出了CE-SDWV框架，旨在解决文本到图像扩散模型生成不安全内容的问题。该方法通过构建相关词汇表和应用语义抑制策略，有效擦除目标概念，无需重新训练模型，实验结果表明其在多个基准测试中表现良好。

CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary

BriefGPT - AI 论文速递 ·

本研究提出了PromptGuard，一种新颖的内容管理技术，旨在减少文本到图像模型生成的不安全内容。研究表明，PromptGuard能有效将不安全内容生成率降低至5.84%，且速度比传统方法快7.8倍。

PromptGuard：软提示引导的文本到图像模型不安全内容的软化管理

BriefGPT - AI 论文速递 ·

本研究探讨大型视觉语言模型（LVLMs）在安全性方面的不足，提出了安全雪球代理（SSA）框架，通过安全图像和提示诱导模型生成不安全内容，以挑战多模态系统的安全性。

Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models

BriefGPT - AI 论文速递 ·

本研究提出了中文安全基准（ChineseSafe），用于评估大型语言模型识别不安全内容的能力。基准包含205,034个示例，涵盖政治敏感性和色情等非法内容类型。研究发现，大多数大型语言模型在安全问题上存在脆弱性，可能面临法律风险，并为开发者提供了改进建议。

ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models

BriefGPT - AI 论文速递 ·

该研究提出了SneakyPrompt攻击框架，利用强化学习生成可绕过文本到图像生成模型的安全过滤器的内容。实验结果表明，该方法在生成不安全内容方面优于现有技术。研究还探讨了模型的鲁棒性，提出了多种防御措施，并强调了持续审核和适应性的重要性，以应对生成敏感内容的风险。

暗矿：防御文本到图像扩散模型的不安全生成

BriefGPT - AI 论文速递 ·

通过自动红队框架评估模型漏洞，暴露不安全和不适当内容生成漏洞，并通过学习攻击策略提供有效的对抗提示。实验证明，该策略比基线方法更好地暴露了SD模型的漏洞。此外，该框架还显著提高了生成有害响应的概率。

FLIRT: 反馈回路内上下文的红队作战

BriefGPT - AI 论文速递 ·