根植形塑果实:性别排斥性伤害在对齐语言模型中的持久性

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨大型语言模型中的性别多样性偏见,尤其关注跨性别和非二元性别身份。评估结果显示,经过对齐的模型在某些微调阶段可能加剧现实中的性别伤害,建议采用社区知情的评估框架以更有效地识别和应对这些问题。

🎯

关键要点

  • 本研究探讨大型语言模型中的性别多样性偏见,特别关注跨性别和非二元性别身份。
  • 评估了12个模型的性别多样性偏见,并全面审视了偏见评估基准。
  • 发现对齐后的模型在某些监督微调阶段可能加剧现实中的性别多样性伤害。
  • 这些伤害包括污名化和性别非肯定语言。
  • 研究建议采用社区知情的偏见评估框架,以更有效地识别和应对这些问题。
➡️

继续阅读