生成偏见：审计文本到图像生成模型的内部偏见动态

本研究针对现有文本到图像(TTI)扩散模型在生成图像过程中 perpetuating gender stereotypes 的问题，提出了两种新颖的度量方法来检测内部偏见。研究表明，这些模型在文本到图像转换过程中会放大性别偏见，并且扩散过程本身也会引入偏见，尤其是Stable Diffusion v2比DALL-E 2更容易受到性别偏见的影响。

研究提出了一种解决文本到图像扩散模型偏见的方法，将公平性视为分布对齐问题。通过分布对齐损失和有偏微调技术，显著降低了性别、种族等偏见。即使只微调少量参数，也能有效减少偏见，并支持多样化的公平性视角。方法可扩展，能同时消除多个概念的偏见。研究希望推动AI的社会调整，并将共享代码和模型适配器。

偏见公平性分布对齐微调文本到图像