大型语言模型作为标注者的偏见:政党提示对标注决策的影响
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
大型语言模型可能存在社会人口统计学偏见。研究者使用逻辑Bradley-Terry探测器来预测LLMs中的单词对偏好,并发现存在大量偏见。研究结果表明,微调可能无法削弱上下文嵌入的偏见。
🎯
关键要点
- 大型语言模型可能存在社会人口统计学偏见。
- 研究者使用逻辑Bradley-Terry探测器预测LLMs中的单词对偏好。
- 研究发现存在大量偏见,微调可能无法削弱上下文嵌入的偏见。
- 探测器在三个偏好配对任务和十三个LLMs上进行了验证。
- 相对于WEAT,探测器的错误率提高了27%。
- 单词对偏好在中间层中最有效。
- 训练在无害任务上的探测器转移到有争议的任务上以检查偏见。
- 观察到所有目标类别都存在大量偏见,例如Mistral模型暗示欧洲优于非洲等。
- 研究表明微调不一定能够削弱上下文嵌入的偏见。
🏷️
标签
➡️