CReHate:英文仇恨言论数据集的跨文化重新标注
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
通过对不同国家的个体如何感知仇恨言论的深入研究,引入了一个跨文化重新标注的采样SBIC数据集(CReHate)。该数据集包含来自五个不同国家的注释:澳大利亚、新加坡、南非、英国和美国。通过迁移学习引入了一种文化敏感的仇恨言论分类器,善于捕捉不同国籍的观点。这些发现强调了需要重新评估自然语言处理研究的某些方面,特别是对英语言中仇恨言论微妙性的关注。
🎯
关键要点
- 研究不同国家个体对仇恨言论的感知
- 引入跨文化重新标注的SBIC数据集(CReHate)
- 数据集包含来自澳大利亚、新加坡、南非、英国和美国的注释
- 统计分析显示基于国籍的显著差异,只有59.4%的样本达成共识
- 通过迁移学习引入文化敏感的仇恨言论分类器
- 强调重新评估自然语言处理研究,特别是对英语言中仇恨言论微妙性的关注
➡️