小红花·文摘

本文介绍了HateXplain，一个针对仇恨言论的基准数据集，采用多级分类和目标社区注释。研究表明，利用人类理由训练的模型能有效减少偏见。此外，提出了多语言仇恨言论检测模型和基于原因的检测框架PEACE，以提高检测的准确性和泛化能力。同时，开发了HateDebias基准测试，分析模型在不同偏见数据集上的表现，并提出去偏见框架以提升效果。

可解释的音频仇恨言论检测研究

BriefGPT - AI 论文速递 ·

该研究综述了大型语言模型生成文本的检测技术，提出了评估指标和威胁控制方案，重点关注开源威胁和误传信息问题，强调定制检测器的必要性，并介绍了多语言检测基准M4GT-Bench。研究表明，现有检测方法在识别机器生成文本方面存在困难，并提出了改进方案和未来研究方向。

LLM-DetectAIve：用于细粒度机器生成文本检测的工具

BriefGPT - AI 论文速递 ·