通过少量解释来近似人类对 NLI 的判断分布:从小处寻找大视角
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文提出了一种新框架,用于评估语言模型(LLM)和人类评判者的偏见。结果显示人类和LLM评判者都容易受到扰动,并存在偏见。作者呼吁社区意识到评估系统的脆弱性,并开发健壮的评估系统。
🎯
关键要点
- 采用人类和大型语言模型作为评判者评估现有 LLM 性能引起关注。
- 这种方法引入了人类和 LLM 评判者的潜在偏见,质疑评估结果的可靠性。
- 提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。
- 整理了一个包含 142 个样本的数据集,涉及修订后的布鲁姆分类法。
- 进行了数千次人类和 LLM 评估,结果显示评判者都容易受到扰动,存在偏见。
- 即使是最先进的评判者也存在相当大的偏见。
- 利用评判者的弱点对 LLM 评判者进行了攻击。
- 希望提高社区对评判者脆弱性的意识,并强调开发健壮评估系统的紧迫性。
➡️