暗矿:防御文本到图像扩散模型的不安全生成

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

本文研究了文本到图像生成AI模型的安全性,特别是隐式对抗提示的影响。通过Adversarial Nibbler Challenge,研究人员收集隐式对抗提示,揭示模型在识别不安全图像时的不足。结果显示,14%的人类认为有害的图像被机器误判为安全。研究强调持续审核和适应性对模型安全性的重要性。

🎯

关键要点

  • 研究文本到图像生成AI模型的安全性,特别是隐式对抗提示的影响。
  • 通过Adversarial Nibbler Challenge,收集隐式对抗提示,揭示模型在识别不安全图像时的不足。
  • 14%的人类认为有害的图像被机器误判为安全。
  • 强调持续审核和适应性对模型安全性的重要性。
  • 构建Adversarial Nibbler Challenge以众包隐式对抗提示,识别和注释伤害。
  • 第一轮挑战结果包含超过10,000个提示-图像对的安全机器注释。
  • 发现新的攻击策略,凸显确保T2I模型鲁棒性的复杂性。
  • 研究结果促进积极的、迭代性的安全评估,推动T2I模型的负责开发。
➡️

继续阅读