关于种族表征在消除高风险决策偏见中的有效性和泛化性
📝
内容提要
该研究关注如何理解和减轻大型语言模型(LLMs)在高风险决策中的偏见问题。通过引入招生和招聘决策任务,研究发现现有模型表现出明显的种族偏见,且多种提示策略无法消除这些偏见。研究还提出了一种新的方法,通过识别模型激活中的“种族子空间”来干预决策,结果表明这一方法能够显著减少偏见,虽然种族表征的普遍性仍面临挑战。
➡️
该研究关注如何理解和减轻大型语言模型(LLMs)在高风险决策中的偏见问题。通过引入招生和招聘决策任务,研究发现现有模型表现出明显的种族偏见,且多种提示策略无法消除这些偏见。研究还提出了一种新的方法,通过识别模型激活中的“种族子空间”来干预决策,结果表明这一方法能够显著减少偏见,虽然种族表征的普遍性仍面临挑战。