大型语言模型作为标注者的偏见:政党提示对标注决策的影响

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

大型语言模型可能存在社会人口统计学偏见。研究者使用逻辑Bradley-Terry探测器来预测LLMs中的单词对偏好,并发现存在大量偏见。研究结果表明,微调可能无法削弱上下文嵌入的偏见。

🎯

关键要点

  • 大型语言模型可能存在社会人口统计学偏见。
  • 研究者使用逻辑Bradley-Terry探测器预测LLMs中的单词对偏好。
  • 研究发现存在大量偏见,微调可能无法削弱上下文嵌入的偏见。
  • 探测器在三个偏好配对任务和十三个LLMs上进行了验证。
  • 相对于WEAT,探测器的错误率提高了27%。
  • 单词对偏好在中间层中最有效。
  • 训练在无害任务上的探测器转移到有争议的任务上以检查偏见。
  • 观察到所有目标类别都存在大量偏见,例如Mistral模型暗示欧洲优于非洲等。
  • 研究表明微调不一定能够削弱上下文嵌入的偏见。
➡️

继续阅读