文本到图像生成中的偏见调查:定义、评估和缓解
原文中文,约2400字,阅读约需6分钟。
📝
内容提要
本文研究了文本到图像生成模型(T2I)中的性别、年龄和种族偏见。通过评估DALLE-v2和Stable Diffusion等模型,发现存在显著的职业和地理偏见。研究提出了一种基于隐性联系测验的框架,以评估模型在生成图像时的社会刻板印象。通过微调模型,显著提高了群体公平性指标,推动了无性别偏见的多语言模型研究。
🎯
关键要点
-
研究了文本到图像生成模型(T2I)中的性别、年龄和种族偏见。
-
发现DALLE-v2和Stable Diffusion等模型存在显著的职业和地理偏见。
-
提出了一种基于隐性联系测验的框架,以评估模型在生成图像时的社会刻板印象。
-
通过微调模型,显著提高了群体公平性指标,推动了无性别偏见的多语言模型研究。
-
研究表明,文本到图像生成模型在不同语言中存在重要的偏见差异。
-
提出了配对刻板印象测试(PST)偏见评估框架,揭示了DALLE-3中的性别职业偏见。
-
提出了分布对齐损失和有偏直接微调的方法,有效降低了生成图像中的性别和种族偏见。
❓
延伸问答
文本到图像生成模型中存在哪些偏见?
文本到图像生成模型中存在性别、年龄和种族偏见,尤其是在职业和地理位置方面。
如何评估文本到图像生成模型的偏见?
可以通过隐性联系测验框架和配对刻板印象测试(PST)来评估模型在生成图像时的社会刻板印象。
微调模型如何改善生成图像的公平性?
通过微调模型,可以显著提高群体公平性指标,例如在感知肤色和性别方面分别提高150%和97.7%。
多语言模型与单语言模型的偏见有什么不同?
多语言模型在生成图像时存在重要的偏见差异,未能提供与单语言模型相同的公平性。
研究中提出了哪些技术来降低偏见?
研究提出了分布对齐损失和有偏直接微调的方法,有效降低了生成图像中的性别和种族偏见。
DALLE-3模型中发现了哪些具体的偏见?
在DALLE-3模型中发现了性别职业偏见和组织权力偏见,尽管在单人情景下似乎表现公平。
🏷️