小红花·文摘

提示后的偏见：大型语言模型中的持续歧视

Apple Machine Learning Research ·

本研究分析了大型语言模型中的人口统计偏见，发现其在职业和犯罪场景中存在性别、种族和年龄偏见，指出当前偏见缓解技术的局限性，并呼吁寻找更有效的方法，提出标准化评估指标以确保人工智能系统的公平性和责任。

揭示人工智能中的隐含偏见：大型语言模型的启示

BriefGPT - AI 论文速递 ·

本文研究了文本到图像生成模型（T2I）中的性别、年龄和种族偏见。通过评估DALLE-v2和Stable Diffusion等模型，发现存在显著的职业和地理偏见。研究提出了一种基于隐性联系测验的框架，以评估模型在生成图像时的社会刻板印象。通过微调模型，显著提高了群体公平性指标，推动了无性别偏见的多语言模型研究。

文本到图像生成中的偏见调查：定义、评估和缓解

BriefGPT - AI 论文速递 ·