文本图像模型的安全过滤器绕过方法
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了SurrogatePrompt框架,可自动扩展攻击提示的创建。成功展示了对Midjourney的首个prompt攻击,并建议通过替换可疑提示中的高风险部分来规避闭源安全措施。攻击提示下,绕过Midjourney的专有安全过滤器的成功率达到88%,导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证了攻击提示生成的图像存在相当大的安全风险。
🎯
关键要点
- 介绍了SurrogatePrompt框架,能够自动扩展攻击提示的创建。
- 成功展示了对Midjourney的首个prompt攻击,生成不适宜工作场所的图像。
- 建议通过替换可疑提示中的高风险部分来规避闭源安全措施。
- 攻击提示下,绕过Midjourney的专有安全过滤器的成功率达到88%。
- 生成的图像描绘政治人物处于暴力情境中,存在安全风险。
- 主观和客观评估验证了攻击提示生成的图像存在相当大的安全风险。
🏷️
标签
➡️