HARE:可解释的仇恨言论检测配有逐步推理
原文中文,约400字,阅读约需1分钟。发表于: 。通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口,我们提出了一种新的仇恨言论检测框架 HARE,该方法使用模型生成数据相较于已有人工注释的基线,能够持续优于其他方法,并 verbess ustheeoub 井 unseendatasets 数据集的泛化性能。
该文介绍了 HateXplain 的工作原理,使用注释的句子片段、言论分类和针对性群体进行分类,消除偏见并提高模型的可解释性。作者在 rationales 上广泛实验了 ground truth attention 值,并成功地实现了模型的可解释性、偏见消除。