本文介绍了HateXplain,一个针对仇恨言论的基准数据集,采用多级分类和目标社区注释。研究表明,利用人类理由训练的模型能有效减少偏见。此外,提出了多语言仇恨言论检测模型和基于原因的检测框架PEACE,以提高检测的准确性和泛化能力。同时,开发了HateDebias基准测试,分析模型在不同偏见数据集上的表现,并提出去偏见框架以提升效果。
该研究综述了大型语言模型生成文本的检测技术,提出了评估指标和威胁控制方案,重点关注开源威胁和误传信息问题,强调定制检测器的必要性,并介绍了多语言检测基准M4GT-Bench。研究表明,现有检测方法在识别机器生成文本方面存在困难,并提出了改进方案和未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。