小红花·文摘

本文介绍了在ArabicNLP 2023的ArAIEval挑战中，利用XLM-RoBERTa模型识别阿拉伯语文本中的说服技巧。研究通过微调和特征提取，取得了高达0.865的F1分数，展示了在社交媒体内容中检测宣传技术的有效性，并探讨了训练数据集的平衡性对模型性能的影响。

BriefGPT - AI 论文速递 ·

SALMA是首个阿拉伯语语义注释语料库，包含约34K个令牌，使用现代和Ghani语义库进行注释。该语料库创新性地将令牌与多个语义关联，并提供评分。通过多种度量评估注释质量，结果显示高一致性。构建的词义消歧系统在现代语义库上的准确率达到84.2%。完整语料库和工具均为开源。

BriefGPT - AI 论文速递 ·

本论文介绍了ArBanking77数据集，用于银行领域的意图检测。数据集包含31,404个阿拉伯语查询，每个查询被分类为77个意图。作者提出了基于AraBERT的神经模型，在数据集上获得了高F1分数。数据集和模型可在链接处获取。

BriefGPT - AI 论文速递 ·

研究了阿拉伯文无点表示法作为标准阿拉伯文本表示法的选择，并分析了其潜在影响。通过对语料库和分词技术进行全面分析，比较了无点表示法与标准文本的信息密度，并构建了统计和神经语言模型进行评估。发现无点表示法在自然语言处理任务中具有潜在优势，为阿拉伯语自然语言处理的进一步研究提供了基础。

BriefGPT - AI 论文速递 ·

本文介绍了一个基于BERT模型的阿拉伯语和Arabizi语言的网页命名实体识别器，能够识别50个实体类别，并在多个数据集上取得高准确率。系统部署在用户友好的网页界面上，并具备使用CAMeL Tools模型的能力。

BriefGPT - AI 论文速递 ·