从列表到表情符号:格式偏见如何影响模型对齐
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
大型语言模型可能存在社会人口统计学偏见。研究者使用逻辑Bradley-Terry探测器来预测LLMs中的单词对偏好,并发现存在大量偏见。他们还发现在中间层中最有效。研究者计划将探测器从无害任务转移到有争议的任务上,以检查国籍、政治、宗教和性别方面的偏见。他们的代码库位于给定的URL。
🎯
关键要点
- 大型语言模型可能存在社会人口统计学偏见。
- 研究者使用逻辑Bradley-Terry探测器预测LLMs中的单词对偏好。
- 在三个偏好配对任务和十三个LLMs上验证了探测器,错误率相对于WEAT提高了27%。
- 单词对偏好在中间层中最有效。
- 计划将探测器从无害任务转移到有争议的任务上,检查国籍、政治、宗教和性别方面的偏见。
- 观察到所有目标类别都存在大量偏见,例如Mistral模型暗示欧洲优于非洲等。
- 指示微调不一定能够削弱上下文嵌入的偏见。
- 代码库位于给定的URL。
➡️