小红花·文摘

我们引入了一个新的基准数据集MULTITuDE，用于多语言机器生成文本检测。该数据集包括11种语言的真实和机器生成的文本，共计74,081个样本。通过比较零样本和微调检测器的性能，评估了这些检测器在未见过的语言和未见过的模型上的泛化性能。