MENTOR:面向类推学习的多语言文本检测
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们引入了一个新的基准数据集MULTITuDE,用于多语言机器生成文本检测。该数据集包括11种语言的真实和机器生成的文本,共计74,081个样本。我们比较了零样本和微调检测器的性能,并考虑了多语言性。评估结果显示,这些检测器在未见过的语言和未见过的LLMs上具有良好的泛化性能。
🎯
关键要点
- 引入了新的基准数据集MULTITuDE,用于多语言机器生成文本检测。
- 数据集包括11种语言的74,081个真实和机器生成的文本。
- 比较了零样本和微调检测器的性能,考虑了多语言性。
- 评估结果显示检测器在未见过的语言和未见过的LLMs上具有良好的泛化性能。
🏷️
标签
➡️