1-800-共享任务 @ Devanagari 脚本语言的自然语言理解:使用大型语言模型检测语言、仇恨言论和目标
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种针对社交媒体评论的恐同/恐跨基算法,基于transformer的多类别分类模型,支持十种语言。通过引入合成和有机脚本切换数据,提升了在资源匮乏语言中的语言检测性能。
🎯
关键要点
- 本文介绍了一种针对社交媒体评论的恐同/恐跨基算法。
- 该算法基于transformer的多类别分类模型,支持十种语言。
- 所支持的语言包括英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语。
- 在领域适应期间,引入了合成和有机脚本切换数据以提升语言检测性能。
- 系统在古吉拉特语和泰卢固语中排名第二,其他语言表现有所不同。
- 结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
➡️