BriefGPT - AI 论文速递 ·

文本到图像生成中的偏见调查：定义、评估和缓解

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

本文研究了文本到图像生成模型（T2I）中的性别、年龄和种族偏见。通过评估DALLE-v2和Stable Diffusion等模型，发现存在显著的职业和地理偏见。研究提出了一种基于隐性联系测验的框架，以评估模型在生成图像时的社会刻板印象。通过微调模型，显著提高了群体公平性指标，推动了无性别偏见的多语言模型研究。

🎯

关键要点

研究了文本到图像生成模型（T2I）中的性别、年龄和种族偏见。
发现DALLE-v2和Stable Diffusion等模型存在显著的职业和地理偏见。
提出了一种基于隐性联系测验的框架，以评估模型在生成图像时的社会刻板印象。
通过微调模型，显著提高了群体公平性指标，推动了无性别偏见的多语言模型研究。
研究表明，文本到图像生成模型在不同语言中存在重要的偏见差异。
提出了配对刻板印象测试（PST）偏见评估框架，揭示了DALLE-3中的性别职业偏见。
提出了分布对齐损失和有偏直接微调的方法，有效降低了生成图像中的性别和种族偏见。

❓

延伸问答

文本到图像生成模型中存在哪些偏见？

文本到图像生成模型中存在性别、年龄和种族偏见，尤其是在职业和地理位置方面。

如何评估文本到图像生成模型的偏见？

可以通过隐性联系测验框架和配对刻板印象测试（PST）来评估模型在生成图像时的社会刻板印象。

微调模型如何改善生成图像的公平性？

通过微调模型，可以显著提高群体公平性指标，例如在感知肤色和性别方面分别提高150%和97.7%。

多语言模型与单语言模型的偏见有什么不同？

多语言模型在生成图像时存在重要的偏见差异，未能提供与单语言模型相同的公平性。

研究中提出了哪些技术来降低偏见？

研究提出了分布对齐损失和有偏直接微调的方法，有效降低了生成图像中的性别和种族偏见。

DALLE-3模型中发现了哪些具体的偏见？

在DALLE-3模型中发现了性别职业偏见和组织权力偏见，尽管在单人情景下似乎表现公平。

🏷️