SaudiBERT: 一种基于沙特方言语料库预训练的大型语言模型
📝
内容提要
本文介绍了 SaudiBERT,这是一个在沙特方言文本上进行预训练的单一方言阿拉伯语言模型。通过与其他六个多方言阿拉伯语言模型在 11 个评估数据集上的比较,分为情感分析和文本分类两组,SaudiBERT 在这两组中分别达到了 86.15% 和 87.86% 的平均 F1 得分,显著优于其他比较模型。此外,我们还介绍了两个新的沙特方言语料库:沙特推特巨型语料库(STMC),其中包含超过...
➡️