用大型经验研究代替人类法官?跨 20 个 NLP 评估任务
原文中文,约400字,阅读约需1分钟。发表于: 。评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM 尚不具备系统替代...
本文提出了一种新框架,用于评估语言模型和人类评判者的偏见。结果显示人类和语言模型评判者都容易受到扰动,并存在相当大的偏见。作者呼吁社区意识到评估系统的脆弱性,并开发健壮的评估系统。