BanLemma: 一个以词形构造依赖规则和词典的孟加拉语词形还原工具
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
本研究设计了一个用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了基于单词词性分类的词形还原。词形还原器在测试数据集上取得了96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。该研究公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
🎯
关键要点
- 本研究设计了一个用于孟加拉语的词形还原器。
- 词形还原器通过对大规模孟加拉语文本的分析,实现了基于单词词性分类的词形还原。
- 在测试数据集上,词形还原器取得了96.36%的准确性。
- 该词形还原器在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。
- 研究公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
➡️