注意力显示量级:定位和减轻语言模型中的偏见
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了大型语言模型(LLMs)在模糊比较提示下偏见产生的根本原因。提出了一种新颖的方法,通过分析模型的注意力机制,引入了量化偏见的方法和$\texttt{ATLAS}$技术,以定位并减轻模型特定层的偏见。研究结果表明,后层的偏见集中,且$\texttt{ATLAS}$方法在不显著降低下游性能的情况下有效减轻了偏见,从而提升了公正性。
大型语言模型存在社会人口统计学偏见,尤其在中间层的潜在表示中更为明显。通过逻辑Bradley-Terry探测器验证的偏好配对任务显示,模型在多个类别中存在显著偏见。