弱监督因果解离下的跨平台仇恨言论检测
原文中文,约300字,阅读约需1分钟。发表于: 。使用基于置信度的重新权重和对比正则化的方法,本研究提出了 HATE WATCH,这是一种弱监督因果分解的新型框架,可以绕过显式目标标签的需求,并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进行的实证验证将 HATE WATCH 定位为一种新的跨平台仇恨言论检测方法,并展现出卓越的性能。HATE WATCH...
本研究提出了一种名为HATE WATCH的新型框架,用于检测跨平台的仇恨言论。通过重新权重和对比正则化的方法,HATE WATCH可以绕过目标标签的需求,并将输入特征分解为对仇恨言论具有不变性的表示。实证验证表明,HATE WATCH在带有和不带有目标标签的平台上表现出卓越性能。这项研究推动了可扩展的内容管理技术,以发展更安全的在线社区。