对低资源语言形态学标注的分类丧失

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了LSTM指针生成器和带硬单调注意力的序列到序列模型,用于标准化语素分割。实验结果显示,在低资源情境下,这些新方法的准确度比现有方法高出11.4%。然而,在真正的低资源语言中,最好的模型仅获得了37.4%和28.4%的准确度,标准化分割仍然具有挑战性。

🎯

关键要点

  • 本文探讨了在训练数据有限的情况下,如何将单词分割为标准化的语素。
  • 提出了两种新的模型:LSTM 指针生成器和带有硬单调注意力的序列到序列模型。
  • 在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。
  • 结果显示,在低资源情境下,这些新方法的准确度比现有方法高出 11.4%。
  • 在真正的低资源语言波波卢卡语和特佩瓦语中,最好的模型仅获得了 37.4% 和 28.4% 的准确度。
  • 标准化分割仍然是低资源语言中的一个具有挑战性的任务。
➡️

继续阅读