本文介绍了在ArabicNLP 2023的ArAIEval挑战中,利用XLM-RoBERTa模型识别阿拉伯语文本中的说服技巧。研究通过微调和特征提取,取得了高达0.865的F1分数,展示了在社交媒体内容中检测宣传技术的有效性,并探讨了训练数据集的平衡性对模型性能的影响。
SALMA是首个阿拉伯语语义注释语料库,包含约34K个令牌,使用现代和Ghani语义库进行注释。该语料库创新性地将令牌与多个语义关联,并提供评分。通过多种度量评估注释质量,结果显示高一致性。构建的词义消歧系统在现代语义库上的准确率达到84.2%。完整语料库和工具均为开源。
本论文介绍了ArBanking77数据集,用于银行领域的意图检测。数据集包含31,404个阿拉伯语查询,每个查询被分类为77个意图。作者提出了基于AraBERT的神经模型,在数据集上获得了高F1分数。数据集和模型可在链接处获取。
研究了阿拉伯文无点表示法作为标准阿拉伯文本表示法的选择,并分析了其潜在影响。通过对语料库和分词技术进行全面分析,比较了无点表示法与标准文本的信息密度,并构建了统计和神经语言模型进行评估。发现无点表示法在自然语言处理任务中具有潜在优势,为阿拉伯语自然语言处理的进一步研究提供了基础。
本文介绍了一个基于BERT模型的阿拉伯语和Arabizi语言的网页命名实体识别器,能够识别50个实体类别,并在多个数据集上取得高准确率。系统部署在用户友好的网页界面上,并具备使用CAMeL Tools模型的能力。
完成下面两步后,将自动完成登录并继续当前操作。