小红花·文摘

该研究旨在解决阿拉伯地区的数据稀缺问题，开发真实的阿拉伯语言模型。通过提取和清洗大量阿拉伯文本，形成了1010亿词汇的数据集，推动了阿拉伯语言模型的发展。同时，介绍了CIDAR数据集、Ashaar框架、ClArTTS语音库和LANS文本摘要数据集，为阿拉伯自然语言处理提供了重要支持。

BriefGPT - AI 论文速递 ·

本论文介绍了ArBanking77数据集，用于银行领域的意图检测。数据集包含31,404个阿拉伯语查询，每个查询被分类为77个意图。作者提出了基于AraBERT的神经模型，在数据集上获得了高F1分数。数据集和模型可在链接处获取。

BriefGPT - AI 论文速递 ·