通过激活转向技术研究 Llama 2 Chat 中的偏见表达
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
研究发现,大型语言模型可能存在社会人口统计学偏见,逻辑Bradley-Terry探测器可以预测单词偏好,偏好在中间层最有效。进一步研究发现,模型存在国籍、政治、宗教和性别方面的偏见,微调无法完全消除偏见。
🎯
关键要点
- 大型语言模型可能存在社会人口统计学偏见。
- 逻辑Bradley-Terry探测器可以预测单词偏好,且在中间层最有效。
- 研究验证了探测器在三个偏好配对任务和十三个LLMs上的有效性。
- 模型在国籍、政治、宗教和性别方面存在偏见。
- 微调无法完全消除模型中的偏见。
➡️