注意力显示量级:定位和减轻语言模型中的偏见

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

大型语言模型存在社会人口统计学偏见,尤其在中间层的潜在表示中更为明显。通过逻辑Bradley-Terry探测器验证的偏好配对任务显示,模型在多个类别中存在显著偏见。

原文中文,约400字,阅读约需1分钟。
阅读原文