语法错误检测中的零射击跨语言迁移合成数据生成
原文中文,约300字,阅读约需1分钟。发表于: 。通过多语种预训练语言模型的零 - shot 跨语言转移能力,我们研究了在缺乏人工注释的低资源语言中的语法错误检测,提出了一个两阶段微调策略,将模型首先在多语种合成的目标语言数据上进行微调,然后在源语言的人工注释 GED 语料上进行微调,该方法优于当前最先进的无注释 GED 方法,并且产生的错误更多样且更接近人为错误。
本研究使用自动注释工具ERRANT的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。合成数据集在BEA-19和CoNLL14测试集上表现良好,对于混合本地和非本地语言的英语人群效果优于真实训练数据。