SemEval-2024 任务 8:多领域、多模型和多语种机器生成文本检测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们引入了一个新的基准数据集MULTITuDE,用于多语言机器生成文本检测。该数据集包括11种语言的真实和机器生成的文本,共计74,081个样本。通过比较零样本和微调检测器的性能,评估了这些检测器在未见过的语言和未见过的模型上的泛化性能。

🎯

关键要点

  • 引入了新的基准数据集MULTITuDE,用于多语言机器生成文本检测。
  • 数据集包括11种语言的真实和机器生成的文本,共计74,081个样本。
  • 文本由8个多语言LLM生成。
  • 比较了零样本和微调检测器的性能。
  • 评估了检测器在未见过的语言和未见过的模型上的泛化性能。
  • 考虑了多语言性对检测器性能的影响。
➡️

继续阅读