多语言冒犯性语言识别的文本对文本模型

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了首个编码器-解码器结构的预训练模型,用于冒犯语言识别,并在两个大型数据集上进行了训练。研究结果显示,该模型在多个英文基准测试中优于其他模型,实现了新的最优表现。

🎯

关键要点

  • 社交媒体上冒犯内容的普遍存在引起了公司和政府组织的关注。
  • 本研究提出了第一个编码器-解码器结构的预训练模型用于冒犯语言识别。
  • 模型在两个大型数据集(SOLID 和 CCTK)上进行了训练。
  • 研究结果显示,预训练的 T5 模型在多个英文基准测试中优于其他模型。
  • 多语言预训练模型在所有数据集上实现了新的最优表现。
➡️

继续阅读