小红花·文摘

该文介绍了 HateXplain 的工作原理，使用注释的句子片段、言论分类和针对性群体进行分类，消除偏见并提高模型的可解释性。作者在 rationales 上广泛实验了 ground truth attention 值，并成功地实现了模型的可解释性、偏见消除。