EgyBERT:基于埃及方言语料库预训练的大型语言模型

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

EgyBERT是一个在埃及方言文本上进行预训练的阿拉伯语语言模型,性能优于其他模型,证实了其在处理以埃及方言表达的阿拉伯文本方面的有效性。

🎯

关键要点

  • EgyBERT是一个在10.4 GB埃及方言文本上进行预训练的阿拉伯语语言模型。
  • EgyBERT的平均F1-score为84.25%,准确率为87.33%,显著优于其他模型。
  • 排名第二的MARBERTv2的F1-score为83.68%,准确率为87.19%。
  • 研究介绍了两个新的埃及方言语料库:埃及推文语料库(ETC)和埃及论坛语料库(EFC)。
  • 这两个语料库是迄今为止文献报道的最大的埃及方言语料库。
  • 首次评估了各种语言模型在埃及方言数据集上的性能,发现性能差异显著。
  • 结果证实了EgyBERT模型在处理以埃及方言表达的阿拉伯文本方面的有效性。
  • EgyBERT模型可在https://huggingface.co/faisalq/EgyBERT上公开获取。
➡️

继续阅读