文本图像模型的安全过滤器绕过方法
原文中文,约400字,阅读约需1分钟。发表于: 。我们成功地设计并展示了对 Midjourney 的首个 prompt 攻击,从而生成大量逼真的不适宜工作场所的图像,揭示了此类攻击的基本原理,并建议通过策略性地替换可疑提示中的高风险部分来规避闭源安全措施。我们的新框架 SurrogatePrompt 可以系统地利用大型语言模型、图像到文本和图像到图像模块自动扩展攻击提示的创建。评估结果显示,在我们的攻击提示下,绕过 Midjourney...
该文介绍了SurrogatePrompt框架,可自动扩展攻击提示的创建。成功展示了对Midjourney的首个prompt攻击,并建议通过替换可疑提示中的高风险部分来规避闭源安全措施。攻击提示下,绕过Midjourney的专有安全过滤器的成功率达到88%,导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证了攻击提示生成的图像存在相当大的安全风险。