The Root Shapes the Fruit: The Persistence of Gender-Exclusive Harms in Aligned Language Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨大型语言模型中的性别多样性偏见,特别是对跨性别和非二元性别身份的影响。评估发现,经过对齐的模型在某些阶段可能加剧现实中的性别伤害。建议采用社区知情的偏见评估框架,以更有效识别和应对这些问题。

🎯

关键要点

  • 本研究探讨大型语言模型中的性别多样性偏见,特别是对跨性别和非二元性别身份的影响。

  • 评估发现,经过对齐的模型在某些监督微调阶段可能加剧现实中的性别伤害,如污名化和性别非肯定语言。

  • 建议采用社区知情的偏见评估框架,以更有效识别和应对大型语言模型中的被忽视的伤害。

➡️

继续阅读