多语言冒犯性语言识别的文本对文本模型
原文中文,约300字,阅读约需1分钟。发表于: 。社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID 和 CCTK)上训练。研究结果表明,预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。
本研究提出了首个编码器-解码器结构的预训练模型,用于冒犯语言识别,并在两个大型数据集上进行了训练。研究结果显示,该模型在多个英文基准测试中优于其他模型,实现了新的最优表现。