从N-gram到预训练多语言模型用于语言识别

📝

内容提要

本研究解决了南非11种语言的语言识别问题,发现N-gram模型中有效的数据选择对语言频率分布至关重要,同时也探讨了多种预训练的多语言模型(PLM)在语言识别中的有效性。研究表明,Serengeti模型在不同模型中表现最佳,并提出了一种轻量级的BERT-based语言识别模型(za_BERT_lid),其性能与最佳的Afri-centric模型相当。

🏷️

标签

➡️

继续阅读