对低资源语言形态学标注的分类丧失
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了LSTM指针生成器和带硬单调注意力的序列到序列模型,用于标准化语素分割。实验结果显示,在低资源情境下,这些新方法的准确度比现有方法高出11.4%。然而,在真正的低资源语言中,最好的模型仅获得了37.4%和28.4%的准确度,标准化分割仍然具有挑战性。
🎯
关键要点
- 本文探讨了在训练数据有限的情况下,如何将单词分割为标准化的语素。
- 提出了两种新的模型:LSTM 指针生成器和带有硬单调注意力的序列到序列模型。
- 在德语、英语、印度尼西亚语、波波卢卡语和特佩瓦语进行了实验。
- 结果显示,在低资源情境下,这些新方法的准确度比现有方法高出 11.4%。
- 在真正的低资源语言波波卢卡语和特佩瓦语中,最好的模型仅获得了 37.4% 和 28.4% 的准确度。
- 标准化分割仍然是低资源语言中的一个具有挑战性的任务。
➡️