社会偏见探测:语言模型的公平性基准测试
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种四阶段的框架,用于评估大型语言模型生成的内容中的刻板印象和偏见。以教育领域为案例研究,构建了Edu-FairBench,并发现五个LLMs存在不同程度的刻板印象和偏见。自动评估方法与人工注释相关性高。
🎯
关键要点
- 本研究提出了一种四阶段的框架,用于评估大型语言模型生成内容中的刻板印象和偏见。
- 框架包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。
- 提出了多维度评估指标和可解释的零样本提示用于自动评估。
- 以教育领域为案例研究,构建了 Edu-FairBench,包含 12632 个开放性问题。
- Edu-FairBench 涉及九个敏感因素和 26 个教育场景。
- 实验结果显示评估的五个 LLMs 存在不同程度的刻板印象和偏见。
- 自动评估方法的结果与人工注释有很高的相关性。
➡️