该研究旨在解决阿拉伯地区的数据稀缺问题,开发真实的阿拉伯语言模型。通过提取和清洗大量阿拉伯文本,形成了1010亿词汇的数据集,推动了阿拉伯语言模型的发展。同时,介绍了CIDAR数据集、Ashaar框架、ClArTTS语音库和LANS文本摘要数据集,为阿拉伯自然语言处理提供了重要支持。
本论文介绍了ArBanking77数据集,用于银行领域的意图检测。数据集包含31,404个阿拉伯语查询,每个查询被分类为77个意图。作者提出了基于AraBERT的神经模型,在数据集上获得了高F1分数。数据集和模型可在链接处获取。
完成下面两步后,将自动完成登录并继续当前操作。