一个用于豪萨、约鲁巴和伊博语言的冒犯性语言和仇恨言论检测的多语言数据集
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文介绍了针对尼日利亚四种主要语言的情感数据集及其标注方法,评估了预训练模型和迁移策略,以改善低资源语言的情感分析。研究表明,简单模型在低资源环境下表现最佳,并提出了有效的恶意言论检测框架,以促进在线环境的安全与包容。
🎯
关键要点
- 介绍了针对尼日利亚四种主要语言的大规模人工标注推特情感数据集,包含豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语。
- 评估了预训练模型和迁移策略,发现简单模型在低资源环境下表现最佳。
- 提出了有效的恶意言论检测框架,以促进在线环境的安全与包容。
- 研究表明,使用 LASER 嵌入和逻辑回归的简单模型在低资源设置下性能最佳。
- 通过引入 NaijaHate 数据集和 NaijaXLM-T 模型,展示了恶意言论检测在低资源环境中的重要性。
- 在尼日利亚推特上进行人为辅助的内容审核可以有效减少恶意内容。
❓
延伸问答
这个数据集包含哪些语言?
该数据集包含豪萨语、伊博语、尼日利亚皮钦语和约鲁巴语。
研究中使用了哪些模型来检测恶意言论?
研究中使用了LASER嵌入和逻辑回归的简单模型,以及BERT模型。
在低资源环境下,哪种模型表现最佳?
在低资源环境下,使用LASER嵌入和逻辑回归的简单模型表现最佳。
如何减少尼日利亚推特上的恶意内容?
通过人为辅助的内容审核可以有效减少尼日利亚推特上的恶意内容。
这项研究的主要目标是什么?
这项研究旨在解决低资源语言缺乏相关NLP任务支持的问题,并开发检测系统。
NaijaHate数据集的引入有什么重要性?
NaijaHate数据集的引入展示了在低资源环境中进行恶意言论检测的重要性。
➡️