自动生成对抗言论可以有效减少社交媒体上的仇恨内容,但需考虑话题和受众。我们提出基于话语理论的新框架,研究对抗言论与仇恨评论的关系。通过Reddit数据和3.9k评论对的手动注释,识别仇恨和对抗言论,并重新表述以减少冒犯。结果表明,大型语言模型能生成有效的对抗言论,改善模型问题。
自动对抗言论生成是打击社交媒体仇恨内容的有效方法。研究提出了基于话语理论的新框架,通过推理链接将对抗言论与仇恨评论连接起来。利用Reddit评论数据集验证了该框架的有效性。该方法可作为应对话语不可知模型故障的保护措施。
完成下面两步后,将自动完成登录并继续当前操作。