生成偏见:审计文本到图像生成模型的内部偏见动态
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对现有文本到图像(TTI)扩散模型在生成图像过程中 perpetuating gender stereotypes 的问题,提出了两种新颖的度量方法来检测内部偏见。研究表明,这些模型在文本到图像转换过程中会放大性别偏见,并且扩散过程本身也会引入偏见,尤其是Stable Diffusion v2比DALL-E 2更容易受到性别偏见的影响。
研究提出了一种解决文本到图像扩散模型偏见的方法,将公平性视为分布对齐问题。通过分布对齐损失和有偏微调技术,显著降低了性别、种族等偏见。即使只微调少量参数,也能有效减少偏见,并支持多样化的公平性视角。方法可扩展,能同时消除多个概念的偏见。研究希望推动AI的社会调整,并将共享代码和模型适配器。