SWE2:子词丰富且重视显著词的仇恨言论检测框架
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了HateXplain,这是首个包含3级分类、目标社区和理由注释的仇恨言论数据集。研究发现,尽管模型在分类上表现良好,但在可解释性上得分不高。使用人类理由训练的模型更能减少对目标社区的偏见。
🎯
关键要点
- HateXplain是首个包含3级分类、目标社区和理由注释的仇恨言论数据集。
- 尽管模型在分类上表现良好,但在可解释性上得分不高。
- 使用人类理由训练的模型更能减少对目标社区的偏见。
🏷️
标签
➡️