CIDAR: 针对阿拉伯文的文化相关教学数据集
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本论文介绍了ArBanking77数据集,用于银行领域的意图检测。数据集包含31,404个阿拉伯语查询,每个查询被分类为77个意图。作者提出了基于AraBERT的神经模型,在数据集上获得了高F1分数。数据集和模型可在链接处获取。
🎯
关键要点
- 论文介绍了ArBanking77数据集,用于银行领域的意图检测。
- 数据集包含31,404个现代标准阿拉伯语和巴勒斯坦方言的查询。
- 每个查询被分类为77个意图类别。
- 提出了基于AraBERT的神经模型,并在数据集上微调。
- 模型在现代标准阿拉伯语和巴勒斯坦方言上分别获得了0.9209和0.8995的F1分数。
- 模型在低资源环境下表现良好,通过部分数据训练和噪声查询扩充。
- 数据集和模型均可公开获取。
🏷️
标签
➡️