本论文提出了一种系统的方法和一个新的数据集VariErr,研究英语NLI任务中的错误与变异。通过评估自动错误检测方法和GPT模型的效果,发现GPT模型和人类表现更好。该方法适用于NLI,为研究错误与变异提供了基础,以获得更可靠的NLP系统。
完成下面两步后,将自动完成登录并继续当前操作。