基于感知的文本生成图像模型越狱方法
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文评估了商用T2I生成系统在版权侵权方面的安全性,并提出了一个自动越狱流程用于T2I生成系统。结果显示,ChatGPT阻止了84%的攻击,但我们的方法成功越狱了ChatGPT,封锁了11.0%的攻击。探讨了各种防御策略,但发现需要更强大的防御机制。
🎯
关键要点
- 最近的AI系统在多种任务上表现优异,超越人类能力。
- 越狱是指绕过大型语言模型(LLMs)对齐而产生恶意内容的安全风险。
- 文本到图像(T2I)生成系统的越狱研究相对较少。
- 商用T2I生成系统在版权侵权方面的安全性评估显示,Copilot和Gemini分别只阻止了12%和17%的攻击,而ChatGPT阻止了84%的攻击。
- 提出了一种自动越狱流程,能够生成绕过安全机制的提示。
- 该自动越狱框架利用LLM优化器,生成有效的提示,无需权重更新或梯度计算。
- 该方法成功越狱了ChatGPT,导致76%的时间内产生侵权内容。
- 探讨了后处理过滤和机器遗忘等防御策略,但发现这些措施不足以应对攻击,需更强大的防御机制。
➡️