关于种族表征在消除高风险决策偏见中的有效性和泛化性

📝

内容提要

该研究关注如何理解和减轻大型语言模型(LLMs)在高风险决策中的偏见问题。通过引入招生和招聘决策任务,研究发现现有模型表现出明显的种族偏见,且多种提示策略无法消除这些偏见。研究还提出了一种新的方法,通过识别模型激活中的“种族子空间”来干预决策,结果表明这一方法能够显著减少偏见,虽然种族表征的普遍性仍面临挑战。

➡️

继续阅读