CrowdCounter:一种基准类型特定的多目标反言语 dataset
原文中文,约500字,阅读约需1分钟。发表于: 。本研究解决了现有反言语数据集中缺乏质量和多样性的关键问题,开发了一种名为CrowdCounter的新数据集,包括3425对仇恨言论与反言论,涵盖六种不同的反言论类型(同理、幽默、质疑、警告、羞辱、反驳),为此领域提供了首个特定类型的基准数据。通过评估多种语言模型,本研究发现Flan-T5模型在传统框架下表现最佳,而类型特定提示提升了响应的相关性,尽管可能降低了语言质量。
自动生成对抗言论可以有效减少社交媒体上的仇恨内容,但需考虑话题和受众。我们提出基于话语理论的新框架,研究对抗言论与仇恨评论的关系。通过Reddit数据和3.9k评论对的手动注释,识别仇恨和对抗言论,并重新表述以减少冒犯。结果表明,大型语言模型能生成有效的对抗言论,改善模型问题。