小红花·文摘

通过实证研究发现，使用不同的形态学特征对下游表现的影响有限。现代上下文词表示似乎隐式地编码了足够的形态信息，以获得良好的上下文词形还原器。最佳的领域外词形还原器是使用简单的UPOS标签或没有训练形态学的模型。词形还原评估实践不足以区分模型之间的差异。

BriefGPT - AI 论文速递 ·

本研究设计了一个用于孟加拉语的词形还原器，通过对大规模孟加拉语文本的分析，实现了基于单词词性分类的词形还原。词形还原器在测试数据集上取得了96.36％的准确性，并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。该研究公开提供代码和数据集，以促进孟加拉语自然语言处理的进一步发展。

BriefGPT - AI 论文速递 ·