小红花·文摘

该研究使用生成式人工智能生成合成仇恨言论序列，并微调大型预训练语言模型以提高对仇恨言论的泛化能力。实验证明该方法改进了召回性能，但GPT-3.5模型的零样本仇恨检测性能仍有待提高。