K-HATERS:针对特定目标的韩文仇恨言论检测语料库

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

本研究介绍了韩文中最大的冒犯性语言语料库K-HATERS,包含192K个新闻评论,可检测不同程度的仇恨表达。研究者采用认知反思测试作为标签质量的代理,解决了人类注释中的潜在噪声和偏差。该研究对仇恨言论检测和自然语言处理资源构建具有重要贡献。

🎯

关键要点

  • 本研究介绍了K-HATERS,这是韩文中最大的冒犯性语言语料库,包含192K个新闻评论。
  • K-HATERS提供针对特定目标的冒犯程度评分,能够检测不同程度的仇恨表达。
  • 研究者采用认知反思测试作为标签质量的代理,以解决人类注释中的潜在噪声和偏差。
  • 研究结果表明,得分最低的个体的注释会导致预测模型存在偏差,且准确性较低。
  • 该研究对仇恨言论检测和自然语言处理资源构建具有重要贡献。
➡️

继续阅读