从列表到表情符号:格式偏见如何影响模型对齐

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

大型语言模型可能存在社会人口统计学偏见。研究者使用逻辑Bradley-Terry探测器来预测LLMs中的单词对偏好,并发现存在大量偏见。他们还发现在中间层中最有效。研究者计划将探测器从无害任务转移到有争议的任务上,以检查国籍、政治、宗教和性别方面的偏见。他们的代码库位于给定的URL。

🎯

关键要点

  • 大型语言模型可能存在社会人口统计学偏见。
  • 研究者使用逻辑Bradley-Terry探测器预测LLMs中的单词对偏好。
  • 在三个偏好配对任务和十三个LLMs上验证了探测器,错误率相对于WEAT提高了27%。
  • 单词对偏好在中间层中最有效。
  • 计划将探测器从无害任务转移到有争议的任务上,检查国籍、政治、宗教和性别方面的偏见。
  • 观察到所有目标类别都存在大量偏见,例如Mistral模型暗示欧洲优于非洲等。
  • 指示微调不一定能够削弱上下文嵌入的偏见。
  • 代码库位于给定的URL。
➡️

继续阅读