小红花·文摘

本论文提出了一种系统的方法和一个新的数据集VariErr，研究英语NLI任务中的错误与变异。通过评估自动错误检测方法和GPT模型的效果，发现GPT模型和人类表现更好。该方法适用于NLI，为研究错误与变异提供了基础，以获得更可靠的NLP系统。