HARE:可解释的仇恨言论检测配有逐步推理

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了 HateXplain 的工作原理,使用注释的句子片段、言论分类和针对性群体进行分类,消除偏见并提高模型的可解释性。作者在 rationales 上广泛实验了 ground truth attention 值,并成功地实现了模型的可解释性、偏见消除。

🎯

关键要点

  • HateXplain 采用注释的句子片段、言论分类和针对性群体,提升分类的可解释性和准确性,减少偏见。
  • 使用 BERT 模型进行调整,结合 rationales 和类别预测进行任务。
  • 实验中使用不同重要性值的合并 rationale 类损失,探索模型表现。
  • 在 rationales 上广泛实验 ground truth attention 值,以提高模型可解释性。
  • 通过屏蔽目标社区单词来减少无意偏见,并记录偏见和可解释性指标的改善。
  • 成功实现模型的可解释性和偏见消除,并在原始 BERT 实现上取得增量改进。
➡️

继续阅读