1-800-共享任务 @ Devanagari 脚本语言的自然语言理解:使用大型语言模型检测语言、仇恨言论和目标

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种针对社交媒体评论的恐同/恐跨基算法,基于transformer的多类别分类模型,支持十种语言。通过引入合成和有机脚本切换数据,提升了在资源匮乏语言中的语言检测性能。

🎯

关键要点

  • 本文介绍了一种针对社交媒体评论的恐同/恐跨基算法。
  • 该算法基于transformer的多类别分类模型,支持十种语言。
  • 所支持的语言包括英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语。
  • 在领域适应期间,引入了合成和有机脚本切换数据以提升语言检测性能。
  • 系统在古吉拉特语和泰卢固语中排名第二,其他语言表现有所不同。
  • 结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
➡️

继续阅读