本研究使用预训练语言模型对阿拉伯社交媒体内容进行研究,发现微调方法在分类任务上取得了最高结果,f1-micro分数为0.865,f1-weighted分数为0.861。少样本学习技术可以提高GPT模型结果达20%。
SAMER语料库是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库,包括15部公开可获取的阿拉伯小说,总共约159K个单词。该语料库进行了可读性标注,并提供了两个简化版本的平行文本。该语料库可公开获取,支持和鼓励阿拉伯语句子简化、阿拉伯语自动可读性评估和阿拉伯语教育语言技术的研究发展。
本论文介绍了ArBanking77数据集,用于银行领域的意图检测。数据集包含31,404个阿拉伯语查询,每个查询被分类为77个意图。作者提出了基于AraBERT的神经模型,在数据集上获得了高F1分数。数据集和模型可在链接处获取。
研究了阿拉伯文无点表示法作为标准阿拉伯文本表示法的选择,并分析了其潜在影响。通过对语料库和分词技术进行全面分析,比较了无点表示法与标准文本的信息密度,并构建了统计和神经语言模型进行评估。发现无点表示法在自然语言处理任务中具有潜在优势,为阿拉伯语自然语言处理的进一步研究提供了基础。
本文介绍了一个基于BERT模型的阿拉伯语和Arabizi语言的网页命名实体识别器,能够识别50个实体类别,并在多个数据集上取得高准确率。系统部署在用户友好的网页界面上,并具备使用CAMeL Tools模型的能力。
完成下面两步后,将自动完成登录并继续当前操作。