多模态安全感知中的分歧模式洞察：来自多样化评估组的研究

本研究解决了生成AI安全评估中存在的主观差异问题，特别是不同社会文化背景对伤害感知的影响。通过对来自630位不同背景评估者对1000个文本到图像生成的安全评级进行大规模研究，发现评估者在对伤害的严重性判断上存在显著差异，强调了在评估生成AI安全时纳入多样化视角的重要性，以确保系统的包容性与用户价值的反映。

本文探讨了文本到图像（T2I）模型的安全性，特别是“隐式对抗”提示。通过Adversarial Nibbler Challenge，研究人员发现14%的有害图像被错误标记为“安全”，并收集了超过10,000个提示-图像对。研究强调了持续审核和适应性的重要性，以增强T2I模型的鲁棒性。

T2I模型安全安全性审核隐式对抗鲁棒性