注意力显示量级：定位和减轻语言模型中的偏见

本研究解决了大型语言模型（LLMs）在模糊比较提示下偏见产生的根本原因。提出了一种新颖的方法，通过分析模型的注意力机制，引入了量化偏见的方法和$\texttt{ATLAS}$技术，以定位并减轻模型特定层的偏见。研究结果表明，后层的偏见集中，且$\texttt{ATLAS}$方法在不显著降低下游性能的情况下有效减轻了偏见，从而提升了公正性。

大型语言模型存在社会人口统计学偏见，尤其在中间层的潜在表示中更为明显。通过逻辑Bradley-Terry探测器验证的偏好配对任务显示，模型在多个类别中存在显著偏见。

Bradley-Terry 偏好配对潜在表示社会偏见语言模型