从N-gram到预训练多语言模型用于语言识别
📝
内容提要
本研究解决了南非11种语言的语言识别问题,发现N-gram模型中有效的数据选择对语言频率分布至关重要,同时也探讨了多种预训练的多语言模型(PLM)在语言识别中的有效性。研究表明,Serengeti模型在不同模型中表现最佳,并提出了一种轻量级的BERT-based语言识别模型(za_BERT_lid),其性能与最佳的Afri-centric模型相当。
🏷️
标签
➡️