该文介绍了 HateXplain 的工作原理,使用注释的句子片段、言论分类和针对性群体进行分类,消除偏见并提高模型的可解释性。作者在 rationales 上广泛实验了 ground truth attention 值,并成功地实现了模型的可解释性、偏见消除。
完成下面两步后,将自动完成登录并继续当前操作。