暗矿:防御文本到图像扩散模型的不安全生成

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了文本到图像生成AI模型的安全性,特别是隐式对抗提示的影响。通过Adversarial Nibbler Challenge,研究人员收集隐式对抗提示,揭示模型在识别不安全图像时的不足。结果显示,14%的人类认为有害的图像被机器误判为安全。研究强调持续审核和适应性对模型安全性的重要性。

原文中文,约600字,阅读约需2分钟。
阅读原文