小红花·文摘

自动生成对抗言论可以有效减少社交媒体上的仇恨内容，但需考虑话题和受众。我们提出基于话语理论的新框架，研究对抗言论与仇恨评论的关系。通过Reddit数据和3.9k评论对的手动注释，识别仇恨和对抗言论，并重新表述以减少冒犯。结果表明，大型语言模型能生成有效的对抗言论，改善模型问题。