社会偏见探测:语言模型的公平性基准测试

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种四阶段的框架,用于评估大型语言模型生成的内容中的刻板印象和偏见。以教育领域为案例研究,构建了Edu-FairBench,并发现五个LLMs存在不同程度的刻板印象和偏见。自动评估方法与人工注释相关性高。

🎯

关键要点

  • 本研究提出了一种四阶段的框架,用于评估大型语言模型生成内容中的刻板印象和偏见。
  • 框架包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。
  • 提出了多维度评估指标和可解释的零样本提示用于自动评估。
  • 以教育领域为案例研究,构建了 Edu-FairBench,包含 12632 个开放性问题。
  • Edu-FairBench 涉及九个敏感因素和 26 个教育场景。
  • 实验结果显示评估的五个 LLMs 存在不同程度的刻板印象和偏见。
  • 自动评估方法的结果与人工注释有很高的相关性。
➡️

继续阅读