AlcLaM:阿拉伯方言语言模型
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
该研究介绍了一个超过500GB的阿拉伯语言清理文本语料库,用于提高大规模语言模型的知识和下游泛化能力。该语料库还被用于训练大型阿拉伯语言模型,在典型的NLP任务微调中表现出显着提升。
🎯
关键要点
-
该研究介绍了一个超过500GB的阿拉伯语言清理文本语料库。
-
该语料库旨在提高大规模语言模型的跨领域知识和下游泛化能力。
-
语料库被用于训练大型阿拉伯语言模型。
-
在典型的NLP任务微调中,该模型相比mBERT表现出4.5%至8.5%的显著提升。
-
这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
➡️