小红花·文摘

本文提出了一种针对图像到文本模型的灰盒对抗攻击方法，评估文本到图像生成模型的鲁棒性。研究发现现有防御机制脆弱，许多有害图像被错误标记为安全。通过众包挑战收集了大量提示-图像对，揭示了新的攻击策略，强调了持续审查和适应性的重要性，以促进T2I模型的安全开发。