应用集成方法进行模型无关的机器生成文本检测
原文中文,约600字,阅读约需2分钟。发表于: 。通过应用集成方法来检测大语言模型(LLM)产生的机器生成文本的问题,并找到简单的 DetectGPT 子模型输出的摘要统计数据在保持其零 - shot 性的同时获得 0.73 的 AUROC(相对于 0.61),受监督学习方法可以将准确性提升到 0.94 的 AUROC,但需要一个训练数据集,这表明进一步推广的可能性以创建高准确度、不依赖模型的机器生成文本检测器。
本文提出了一种简单高效的解决方案,通过集成多个组成语言模型的预测来区分人工生成文本和人类作者文本。实验证明,该方法在生成文本分类上性能提升范围在0.5%到100%之间。研究还发现,替换商业限制的生成预训练变压器数据为其他开放语言模型生成的数据是可行的替代方法。此外,实验结果显示该方法具有零-shot推广能力。