一个用于豪萨、约鲁巴和伊博语言的冒犯性语言和仇恨言论检测的多语言数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究使用Twitter数据创建了三种主要尼日利亚语言的侮辱性言论检测数据集,并使用预训练的语言模型评估了其有效性,准确率达到90%。计划公开数据集和模型。
🎯
关键要点
- 本研究使用Twitter数据创建了三种主要尼日利亚语言的侮辱性言论检测数据集。
- 三种语言包括豪萨语、约鲁巴语和伊博语。
- 数据集通过手动注释生成,以确保准确性。
- 使用预训练的语言模型评估侮辱性言论检测的有效性。
- 最佳模型的准确率达到90%。
- 计划公开数据集和模型,以支持进一步的研究。
➡️