通过实证研究发现,使用不同的形态学特征对下游表现的影响有限。现代上下文词表示似乎隐式地编码了足够的形态信息,以获得良好的上下文词形还原器。最佳的领域外词形还原器是使用简单的UPOS标签或没有训练形态学的模型。词形还原评估实践不足以区分模型之间的差异。
本研究设计了一个用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了基于单词词性分类的词形还原。词形还原器在测试数据集上取得了96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。该研究公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
完成下面两步后,将自动完成登录并继续当前操作。