弱监督因果解离下的跨平台仇恨言论检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为HATE WATCH的新型框架,用于检测跨平台的仇恨言论。通过重新权重和对比正则化的方法,HATE WATCH可以绕过目标标签的需求,并将输入特征分解为对仇恨言论具有不变性的表示。实证验证表明,HATE WATCH在带有和不带有目标标签的平台上表现出卓越性能。这项研究推动了可扩展的内容管理技术,以发展更安全的在线社区。
🎯
关键要点
- 本研究提出了一种名为HATE WATCH的新型框架,用于检测跨平台的仇恨言论。
- HATE WATCH采用基于置信度的重新权重和对比正则化的方法,能够绕过目标标签的需求。
- 该框架有效地将输入特征分解为对仇恨言论具有不变性的表示。
- 实证验证表明,HATE WATCH在带有和不带有目标标签的平台上表现出卓越性能。
- HATE WATCH推动了可扩展的内容管理技术,以发展更安全的在线社区。
➡️