VariErr NLI:将注释错误与人类标签变异分离
原文中文,约400字,阅读约需1分钟。
📝
内容提要
这篇论文提出了一个系统的方法和一个新的数据集VariErr,研究英语NLI任务中的错误与变异。通过评估自动错误检测方法和GPT模型的效果,发现GPT模型和人类在发现错误和人类标签变异方面表现更好。该方法适用于NLI,为将来研究错误与合理变异提供了基础。
🎯
关键要点
-
人类标签变异与注释错误是NLP基准测试中的普遍问题。
-
现有研究通常将错误与变异孤立研究。
-
论文提出了一种系统的方法和新的数据集VariErr。
-
研究重点是英语NLI任务中的错误与变异。
-
评估了各种自动错误检测方法和GPT模型的效果。
-
发现GPT模型和人类在发现错误和标签变异方面表现更好。
-
虽然GPT-4是最好的系统,但仍未达到人类表现水平。
-
该方法适用于NLI,并为未来研究提供基础。