EgyBERT:基于埃及方言语料库预训练的大型语言模型
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
EgyBERT是一个在埃及方言文本上进行预训练的阿拉伯语语言模型,性能优于其他模型,证实了其在处理以埃及方言表达的阿拉伯文本方面的有效性。
🎯
关键要点
- EgyBERT是一个在10.4 GB埃及方言文本上进行预训练的阿拉伯语语言模型。
- EgyBERT的平均F1-score为84.25%,准确率为87.33%,显著优于其他模型。
- 排名第二的MARBERTv2的F1-score为83.68%,准确率为87.19%。
- 研究介绍了两个新的埃及方言语料库:埃及推文语料库(ETC)和埃及论坛语料库(EFC)。
- 这两个语料库是迄今为止文献报道的最大的埃及方言语料库。
- 首次评估了各种语言模型在埃及方言数据集上的性能,发现性能差异显著。
- 结果证实了EgyBERT模型在处理以埃及方言表达的阿拉伯文本方面的有效性。
- EgyBERT模型可在https://huggingface.co/faisalq/EgyBERT上公开获取。
➡️