小红花·文摘

大型语言模型可能存在社会人口统计学偏见。研究者使用逻辑Bradley-Terry探测器来预测LLMs中的单词对偏好，并发现存在大量偏见。他们还发现在中间层中最有效。研究者计划将探测器从无害任务转移到有争议的任务上，以检查国籍、政治、宗教和性别方面的偏见。他们的代码库位于给定的URL。

BriefGPT - AI 论文速递 ·

大型语言模型可能存在社会人口统计学偏见。研究者使用逻辑Bradley-Terry探测器来预测LLMs中的单词对偏好，并发现存在大量偏见。研究结果表明，微调可能无法削弱上下文嵌入的偏见。

BriefGPT - AI 论文速递 ·