FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架
原文中文,约400字,阅读约需1分钟。发表于: 。本研究介绍了一种四阶段的框架来直接评估大型语言模型(LLMs)生成的内容中的刻板印象和偏见,包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。此外,本文提出了多维度评估指标和可解释的零样本提示用于自动评估。使用教育领域作为案例研究,我们按照这个四阶段框架构建了 Edu-FairBench,其中包含了 12632 个开放性问题,涵盖了九个敏感因素和 26...
本研究介绍了一种四阶段的框架,用于评估大型语言模型生成的内容中的刻板印象和偏见。通过教育领域的案例研究,发现五个LLMs存在不同程度的刻板印象和偏见。自动评估方法与人工注释结果相关性高。