大型语言模型(LLMs)在招聘和招生等资源有限的环境中被广泛应用,但可能反映和加剧社会偏见。研究扩展了单轴公平评估,关注交叉偏见,创建了WinoIdentity基准,评估245,700个提示中的50种偏见模式。结果显示,LLMs在某些身份群体上的信心差异可达40%,尤其在反刻板印象的情境中,对双重弱势身份的信心最低。这表明LLMs的表现可能更多依赖于记忆而非逻辑推理。
完成下面两步后,将自动完成登录并继续当前操作。