使用带注释的文学方言语料库检验语言建模假设

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们创建了一个19世纪美国文学作品中的正字异构词语料库,并注释了标准词。通过训练神经编辑距离模型,将这些变体与标准形式配对,并与L2英语学习者的拼写错误模型进行比较。分析了不同负样本生成策略对模型性能的影响,总结了文学正字异构变化对字符串配对的挑战。

🎯

关键要点

  • 创建了一个19世纪美国文学作品中的正字异构词语料库,并注释了标准词。
  • 训练了神经编辑距离模型,将变体与标准形式配对。
  • 与L2英语学习者的拼写错误模型进行了性能比较。
  • 分析了不同负样本生成策略对模型性能的影响。
  • 总结了文学正字异构变化对字符串配对的挑战。
➡️

继续阅读