一个用于豪萨、约鲁巴和伊博语言的冒犯性语言和仇恨言论检测的多语言数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究使用Twitter数据创建了三种主要尼日利亚语言的侮辱性言论检测数据集,并使用预训练的语言模型评估了其有效性,准确率达到90%。计划公开数据集和模型。

🎯

关键要点

  • 本研究使用Twitter数据创建了三种主要尼日利亚语言的侮辱性言论检测数据集。
  • 三种语言包括豪萨语、约鲁巴语和伊博语。
  • 数据集通过手动注释生成,以确保准确性。
  • 使用预训练的语言模型评估侮辱性言论检测的有效性。
  • 最佳模型的准确率达到90%。
  • 计划公开数据集和模型,以支持进一步的研究。
➡️

继续阅读