研究发现,大型语言模型可能存在社会人口统计学偏见,逻辑Bradley-Terry探测器可以预测单词偏好,偏好在中间层最有效。进一步研究发现,模型存在国籍、政治、宗教和性别方面的偏见,微调无法完全消除偏见。
完成下面两步后,将自动完成登录并继续当前操作。