弱监督因果解离下的跨平台仇恨言论检测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为HATE WATCH的新型框架,用于检测跨平台的仇恨言论。通过重新权重和对比正则化的方法,HATE WATCH可以绕过目标标签的需求,并将输入特征分解为对仇恨言论具有不变性的表示。实证验证表明,HATE WATCH在带有和不带有目标标签的平台上表现出卓越性能。这项研究推动了可扩展的内容管理技术,以发展更安全的在线社区。

🎯

关键要点

  • 本研究提出了一种名为HATE WATCH的新型框架,用于检测跨平台的仇恨言论。
  • HATE WATCH采用基于置信度的重新权重和对比正则化的方法,能够绕过目标标签的需求。
  • 该框架有效地将输入特征分解为对仇恨言论具有不变性的表示。
  • 实证验证表明,HATE WATCH在带有和不带有目标标签的平台上表现出卓越性能。
  • HATE WATCH推动了可扩展的内容管理技术,以发展更安全的在线社区。
➡️

继续阅读