CrowdCounter:一种基准类型特定的多目标反言语 dataset

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

自动生成对抗言论可以有效减少社交媒体上的仇恨内容,但需考虑话题和受众。我们提出基于话语理论的新框架,研究对抗言论与仇恨评论的关系。通过Reddit数据和3.9k评论对的手动注释,识别仇恨和对抗言论,并重新表述以减少冒犯。结果表明,大型语言模型能生成有效的对抗言论,改善模型问题。

🎯

关键要点

  • 自动对抗言论生成可以有效减少社交媒体上的仇恨内容。
  • 生成的对抗言论需考虑话题、受众和敏感性。
  • 提出了基于话语理论的新框架,研究对抗言论与仇恨评论的关系。
  • 框架包括对抗言论分类法和基于话语理论的上下文化生成策略。
  • 通过Reddit数据集手动注释3.9k评论对,识别仇恨和对抗言论。
  • 提供重新表述的对应项,以消除冒犯和第一人称参考。
  • 大型语言模型能够生成有效的对抗言论,改善模型问题。
  • 方法可作为应对话语不可知模型的保护措施。
➡️

继续阅读