小红花·文摘

我们创建了一个19世纪美国文学作品中的正字异构词语料库，并注释了标准词。通过训练神经编辑距离模型，将这些变体与标准形式配对，并与L2英语学习者的拼写错误模型进行比较。分析了不同负样本生成策略对模型性能的影响，总结了文学正字异构变化对字符串配对的挑战。