基于感知的文本生成图像模型越狱方法
原文中文,约600字,阅读约需2分钟。发表于: 。本研究探讨了文本生成图像(T2I)模型潜在的安全性问题,尤其是在生成不当或不安全内容方面。我们提出了一种新的感知引导越狱方法PGJ,该方法通过引导生成具有相似感知但语义不一致的安全短语作为替代,有效突破了模型的安全限制。实验结果表明,PGJ在多个开源模型和商业服务中表现出色,展现了其重要的应用潜力。
本文评估了商用T2I生成系统在版权侵权方面的安全性,并提出了一个自动越狱流程用于T2I生成系统。结果显示,ChatGPT阻止了84%的攻击,但我们的方法成功越狱了ChatGPT,封锁了11.0%的攻击。探讨了各种防御策略,但发现需要更强大的防御机制。