暗矿:防御文本到图像扩散模型的不安全生成
原文中文,约600字,阅读约需2分钟。发表于: 。本研究针对文本到图像扩散模型因大规模训练数据未经过滤而导致的不安全生成问题进行探讨。提出的“暗矿”方法通过反复的三级流程(挖掘、验证和规避)有效降低不安全概念的生成概率,并在多种实验中显示出优于现有六种方法的防御效果,尤其是在对抗攻击下,保持了模型的生成能力。
本文研究了文本到图像生成AI模型的安全性,特别是隐式对抗提示的影响。通过Adversarial Nibbler Challenge,研究人员收集隐式对抗提示,揭示模型在识别不安全图像时的不足。结果显示,14%的人类认为有害的图像被机器误判为安全。研究强调持续审核和适应性对模型安全性的重要性。