RT攻击:通过随机标记破解文本到图像模型
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
本文评估了商用T2I生成系统在版权侵权方面的安全性,并提出了一个更强大的自动越狱流程。结果显示,ChatGPT阻止了84%的攻击,但我们的方法成功越狱了ChatGPT,封锁了11.0%的攻击。探讨了各种防御策略,但发现它们是不够的,需要更强大的防御机制。
🎯
关键要点
- 最近的AI系统在多种任务上表现出色,超越人类表现。
- 文本到图像(T2I)生成系统的越狱研究相对较少。
- 商用T2I生成系统在版权侵权方面的安全性评估显示,Copilot和Gemini分别只阻止了12%和17%的攻击,而ChatGPT阻止了84%的攻击。
- 提出了一种更强大的自动越狱流程,能够生成绕过安全机制的提示。
- 该自动越狱框架利用LLM优化器,成功越狱ChatGPT,封锁了11.0%的攻击,导致76%的时间内产生侵权内容。
- 探讨了后处理过滤和机器遗忘等防御策略,但发现这些策略不足以应对安全风险,需更强大的防御机制。
➡️