小红花·文摘

这篇论文提出了一个系统的方法和一个新的数据集VariErr，研究英语NLI任务中的错误与变异。通过评估自动错误检测方法和GPT模型的效果，发现GPT模型和人类在发现错误和人类标签变异方面表现更好。该方法适用于NLI，为将来研究错误与合理变异提供了基础。