OPSD:一种冒犯性波斯社交媒体数据集及其基准评估

💡 原文中文,约1300字,阅读约需4分钟。
📝

内容提要

本研究针对社交媒体上的攻击性语言问题,构建了多个数据集并开发了自动分类系统,以检测仇恨言论和网络欺凌。研究表明,采用先进模型可以有效提高检测准确率,促进社交媒体平台对恶意言论的治理。

🎯

关键要点

  • 本研究针对社交媒体上的攻击性语言问题,构建了丹麦数据集,开发了适用于英语和丹麦语的自动分类系统。
  • 研究提出了ViHOS数据集,包含11k条评论和26k个含有仇恨和攻击性言论的人工标注数据。
  • 实验发现XLM-R $_{Large}$在单个范围检测和所有范围检测方面取得最佳F1分数,PhoBERT $_{Large}$在多个范围检测方面表现最佳。
  • 研究旨在帮助解决社交网络平台上存在的恶意和攻击性言论的问题。
  • 创建了第一个具有细粒度标签的Reddit评论英语数据集,为自动检测冒犯性言论提供了可靠方法。
  • 提供了一个多标签的韩国在线仇恨言论数据集,考虑了文化和语言背景,建议构建多元文化背景的仇恨言论数据集的方法。
  • 通过跨语境词嵌入和迁移学习,将预测扩展到低资源语言中,为恶意内容提供了解决方案。
  • 提出了一种新的深度卷积神经网络模型以更有效地进行社交微博帖子中的口语文本情感分析,模型准确性达到72%。
  • 介绍了阿拉伯语攻击性社交媒体贴文数据集的方法,分析了导致攻击性社交媒体贴文的因素,取得F1=83.2的优秀结果。
  • 介绍了包含40,429个分层注释的韩国冒犯性语言数据集,发现提供上下文信息显著提高模型性能。
  • 探讨了社交媒体中仇恨言论现象的检测,使用多语言算法和机器学习系统对Twitter进行分类。
  • 针对孟加拉语仇恨言论检测的挑战,构建了包含30,000条用户评论的数据集,SVM模型在该数据集上获得87.5%的准确率。

延伸问答

ViHOS数据集包含多少条评论和仇恨言论标注数据?

ViHOS数据集包含11,000条评论和26,000个含有仇恨和攻击性言论的人工标注数据。

哪种模型在攻击性语言检测中表现最佳?

XLM-R $_{Large}$在单个范围检测和所有范围检测方面取得最佳F1分数,PhoBERT $_{Large}$在多个范围检测方面表现最佳。

研究如何帮助解决社交媒体上的恶意言论问题?

研究通过构建多个数据集和开发自动分类系统,旨在提高对仇恨言论和网络欺凌的检测准确率。

如何提高模型在冒犯性语言检测中的性能?

提供上下文信息显著提高模型性能,在冒犯性检测、目标分类和目标组分类方面都有所改善。

该研究是否考虑了不同文化和语言背景?

是的,研究提供了一个多标签的韩国在线仇恨言论数据集,考虑了文化和语言背景。

孟加拉语仇恨言论检测的研究结果如何?

在孟加拉语仇恨言论检测中,SVM模型在构建的30,000条用户评论数据集上获得了87.5%的准确率。

➡️

继续阅读