SWE2:子词丰富且重视显著词的仇恨言论检测框架

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了HateXplain,这是首个包含3级分类、目标社区和理由注释的仇恨言论数据集。研究发现,尽管模型在分类上表现良好,但在可解释性上得分不高。使用人类理由训练的模型更能减少对目标社区的偏见。

🎯

关键要点

  • HateXplain是首个包含3级分类、目标社区和理由注释的仇恨言论数据集。
  • 尽管模型在分类上表现良好,但在可解释性上得分不高。
  • 使用人类理由训练的模型更能减少对目标社区的偏见。
➡️

继续阅读