小红花·文摘

本研究使用自动注释工具ERRANT的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。构建了一个规模较大的合成数据集，其错误标签的频率分布与给定开发集相匹配。该合成数据集可以显著提高BEA-19和CoNLL14测试集的性能，并且对于混合本地和非本地语言的英语人群，其效果优于真实训练数据。