用于分类现实世界在线服务中的有偏见言论的大规模韩文文本数据集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究利用韩国SNS平台的大规模数据集,通过多任务学习和基于BERT的语言模型,实现了对用户生成文本的分类,超越了人类水平的准确性。该方法为减轻仇恨言论和偏见提供了实际解决方案,有助于提升在线社区的健康。

🎯

关键要点

  • 该研究利用韩国SNS平台的大规模数据集进行用户生成文本的分类。
  • 数据集包含三种注释:偏好、亵渎和九种偏见类型。
  • 采用基于BERT的语言模型实现多任务学习,准确性超越人类水平。
  • 研究为减轻仇恨言论和偏见提供实际解决方案,提升在线社区健康。
  • 为未来提高在线话语质量和促进社会福祉的研究奠定基础。
  • 所有源代码和数据集可公开访问。
➡️

继续阅读