文本到图像生成中的偏见调查:定义、评估和缓解

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

本文研究了文本到图像生成模型(T2I)中的性别、年龄和种族偏见。通过评估DALLE-v2和Stable Diffusion等模型,发现存在显著的职业和地理偏见。研究提出了一种基于隐性联系测验的框架,以评估模型在生成图像时的社会刻板印象。通过微调模型,显著提高了群体公平性指标,推动了无性别偏见的多语言模型研究。

🎯

关键要点

  • 研究了文本到图像生成模型(T2I)中的性别、年龄和种族偏见。

  • 发现DALLE-v2和Stable Diffusion等模型存在显著的职业和地理偏见。

  • 提出了一种基于隐性联系测验的框架,以评估模型在生成图像时的社会刻板印象。

  • 通过微调模型,显著提高了群体公平性指标,推动了无性别偏见的多语言模型研究。

  • 研究表明,文本到图像生成模型在不同语言中存在重要的偏见差异。

  • 提出了配对刻板印象测试(PST)偏见评估框架,揭示了DALLE-3中的性别职业偏见。

  • 提出了分布对齐损失和有偏直接微调的方法,有效降低了生成图像中的性别和种族偏见。

延伸问答

文本到图像生成模型中存在哪些偏见?

文本到图像生成模型中存在性别、年龄和种族偏见,尤其是在职业和地理位置方面。

如何评估文本到图像生成模型的偏见?

可以通过隐性联系测验框架和配对刻板印象测试(PST)来评估模型在生成图像时的社会刻板印象。

微调模型如何改善生成图像的公平性?

通过微调模型,可以显著提高群体公平性指标,例如在感知肤色和性别方面分别提高150%和97.7%。

多语言模型与单语言模型的偏见有什么不同?

多语言模型在生成图像时存在重要的偏见差异,未能提供与单语言模型相同的公平性。

研究中提出了哪些技术来降低偏见?

研究提出了分布对齐损失和有偏直接微调的方法,有效降低了生成图像中的性别和种族偏见。

DALLE-3模型中发现了哪些具体的偏见?

在DALLE-3模型中发现了性别职业偏见和组织权力偏见,尽管在单人情景下似乎表现公平。

🏷️

标签

➡️

继续阅读