CIDAR: 针对阿拉伯文的文化相关教学数据集
原文中文,约400字,阅读约需1分钟。发表于: 。这篇论文介绍了 CIDAR,这是第一个由人类评论者文化对齐的开放式阿拉伯语指导调优数据集,CIDAR 拥有 10,000 个指令和输出对,代表着阿拉伯地区,实验证明 CIDAR 可以帮助将 LLMs 与阿拉伯文化相结合。
本论文介绍了ArBanking77数据集,用于银行领域的意图检测。数据集包含31,404个阿拉伯语查询,每个查询被分类为77个意图。作者提出了基于AraBERT的神经模型,在数据集上获得了高F1分数。数据集和模型可在链接处获取。