小红花·文摘

研究发现，大型语言模型可能存在社会人口统计学偏见，逻辑Bradley-Terry探测器可以预测单词偏好，偏好在中间层最有效。进一步研究发现，模型存在国籍、政治、宗教和性别方面的偏见，微调无法完全消除偏见。

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型存在社会人口统计学偏见，即使拒绝回答。通过逻辑Bradley-Terry探测器，可以预测模型中的单词对偏好。研究发现，模型在中间层中表现最有效，但仍存在国籍、政治、宗教和性别方面的偏见。微调不能完全削弱模型的偏见。

BriefGPT - AI 论文速递 ·