这篇论文提出了一个系统的方法和一个新的数据集VariErr,研究英语NLI任务中的错误与变异。通过评估自动错误检测方法和GPT模型的效果,发现GPT模型和人类在发现错误和人类标签变异方面表现更好。该方法适用于NLI,为将来研究错误与合理变异提供了基础。
完成下面两步后,将自动完成登录并继续当前操作。