有限数据环境中使用合成数据生成进行仇恨言论检测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该研究使用合成数据生成方法解决在线仇恨言论检测中数据不足的问题,并提供了三种方法来生成保留原有仇恨情绪但转移仇恨目标的仇恨言论数据样本。结果表明使用合成数据训练的模型表现与仅使用目标领域样本训练的模型相媲美甚至更好。

🎯

关键要点

  • 该研究使用合成数据生成方法解决在线仇恨言论检测中的数据不足问题。
  • 提供了三种方法生成保留原有仇恨情绪但转移仇恨目标的仇恨言论数据样本。
  • 在印地语和越南语中生成训练数据以进行仇恨言论分类任务。
  • 结果表明,使用合成数据训练的模型表现与仅使用目标领域样本训练的模型相媲美甚至更好。
  • 该方法可用于从零开始构建仇恨言论检测模型,提升对仇恨言论的检测、理解和响应能力。
➡️

继续阅读