The Root Shapes the Fruit: The Persistence of Gender-Exclusive Harms in Aligned Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究探讨大型语言模型中的性别多样性偏见,特别是对跨性别和非二元性别身份的影响。评估发现,经过对齐的模型在某些阶段可能加剧现实中的性别伤害。建议采用社区知情的偏见评估框架,以更有效识别和应对这些问题。
🎯
关键要点
-
本研究探讨大型语言模型中的性别多样性偏见,特别是对跨性别和非二元性别身份的影响。
-
评估发现,经过对齐的模型在某些监督微调阶段可能加剧现实中的性别伤害,如污名化和性别非肯定语言。
-
建议采用社区知情的偏见评估框架,以更有效识别和应对大型语言模型中的被忽视的伤害。
➡️