多语言冒犯性语言识别的文本对文本模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了首个编码器-解码器结构的预训练模型,用于冒犯语言识别,并在两个大型数据集上进行了训练。研究结果显示,该模型在多个英文基准测试中优于其他模型,实现了新的最优表现。
🎯
关键要点
- 社交媒体上冒犯内容的普遍存在引起了公司和政府组织的关注。
- 本研究提出了第一个编码器-解码器结构的预训练模型用于冒犯语言识别。
- 模型在两个大型数据集(SOLID 和 CCTK)上进行了训练。
- 研究结果显示,预训练的 T5 模型在多个英文基准测试中优于其他模型。
- 多语言预训练模型在所有数据集上实现了新的最优表现。
➡️