小红花·文摘

大语言模型在实际应用中表现优异，但可能传播社会偏见。本文回顾了公平性研究，探讨了模型中的内外部偏见及其评估和去偏方法，强调量化偏见的重要性，并提出减少性别、种族等偏见的策略，以促进更公正的人工智能应用。

探测大型语言模型中的未预料偏见

BriefGPT - AI 论文速递 ·

本文介绍了BiasBuster框架，旨在识别和减轻大型语言模型中的认知偏见。通过开发包含16,800个提示的数据集，测试了多种去偏策略，验证了自助去偏方法的有效性。研究揭示了性别偏见的存在，并提出了无需访问模型参数的去偏方法。文章还回顾了大型语言模型中的公平性研究，探讨了评估指标和干预方法，强调了未来研究的必要性。

驾驭 LLMs 朝向无偏响应：一个因果引导的去偏框架

BriefGPT - AI 论文速递 ·