SWE2:子词丰富且重视显著词的仇恨言论检测框架
原文中文,约200字,阅读约需1分钟。发表于: 。本文旨在解决在线社交网络中仇恨言论检测的问题,提出了一种新的框架SWE2,该框架仅依赖信息内容自动识别仇恨言论。该方法通过利用词级语义信息和子词知识,展现出良好的性能,实验结果显示在无对抗攻击下准确率达到0.975,给予仇恨言论检测提供了有效解决方案。
本文介绍了HateXplain,这是首个包含3级分类、目标社区和理由注释的仇恨言论数据集。研究发现,尽管模型在分类上表现良好,但在可解释性上得分不高。使用人类理由训练的模型更能减少对目标社区的偏见。