多模态安全感知中的分歧模式洞察:来自多样化评估组的研究
原文中文,约600字,阅读约需2分钟。发表于: 。本研究解决了生成AI安全评估中存在的主观差异问题,特别是不同社会文化背景对伤害感知的影响。通过对来自630位不同背景评估者对1000个文本到图像生成的安全评级进行大规模研究,发现评估者在对伤害的严重性判断上存在显著差异,强调了在评估生成AI安全时纳入多样化视角的重要性,以确保系统的包容性与用户价值的反映。
本文探讨了文本到图像(T2I)模型的安全性,特别是“隐式对抗”提示。通过Adversarial Nibbler Challenge,研究人员发现14%的有害图像被错误标记为“安全”,并收集了超过10,000个提示-图像对。研究强调了持续审核和适应性的重要性,以增强T2I模型的鲁棒性。