BanLemma: 一个以词形构造依赖规则和词典的孟加拉语词形还原工具
原文中文,约2200字,阅读约需6分钟。发表于: 。本研究利用语言学规则和词典设计了一个专门用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了在给定句子中基于单词词性分类的词形还原。词形还原器在经过训练的语言学家手动注释的测试数据集上取得了 96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。我们公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。
本研究设计了一个用于孟加拉语的词形还原器,通过对大规模孟加拉语文本的分析,实现了基于单词词性分类的词形还原。词形还原器在测试数据集上取得了96.36%的准确性,并在三个先前发布的孟加拉语词形还原数据集上展现了竞争性能。该研究公开提供代码和数据集,以促进孟加拉语自然语言处理的进一步发展。