我们创建了一个19世纪美国文学作品中的正字异构词语料库,并注释了标准词。通过训练神经编辑距离模型,将这些变体与标准形式配对,并与L2英语学习者的拼写错误模型进行比较。分析了不同负样本生成策略对模型性能的影响,总结了文学正字异构变化对字符串配对的挑战。
完成下面两步后,将自动完成登录并继续当前操作。