小红花·文摘

该文介绍了SurrogatePrompt框架，可自动扩展攻击提示的创建。成功展示了对Midjourney的首个prompt攻击，并建议通过替换可疑提示中的高风险部分来规避闭源安全措施。攻击提示下，绕过Midjourney的专有安全过滤器的成功率达到88％，导致生成描绘政治人物处于暴力情境中的冒牌图像。主观和客观评估均验证了攻击提示生成的图像存在相当大的安全风险。