CReHate:英文仇恨言论数据集的跨文化重新标注

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

通过对不同国家的个体如何感知仇恨言论的深入研究,引入了一个跨文化重新标注的采样SBIC数据集(CReHate)。该数据集包含来自五个不同国家的注释:澳大利亚、新加坡、南非、英国和美国。通过迁移学习引入了一种文化敏感的仇恨言论分类器,善于捕捉不同国籍的观点。这些发现强调了需要重新评估自然语言处理研究的某些方面,特别是对英语言中仇恨言论微妙性的关注。

🎯

关键要点

  • 研究不同国家个体对仇恨言论的感知
  • 引入跨文化重新标注的SBIC数据集(CReHate)
  • 数据集包含来自澳大利亚、新加坡、南非、英国和美国的注释
  • 统计分析显示基于国籍的显著差异,只有59.4%的样本达成共识
  • 通过迁移学习引入文化敏感的仇恨言论分类器
  • 强调重新评估自然语言处理研究,特别是对英语言中仇恨言论微妙性的关注
➡️

继续阅读