小红花·文摘

本文提出了一种方法，可以确定文章是由生成式语言模型编写还是经过重大编辑。该方法使用多个测试来判断文本单元的来源，并使用Higher Criticism方法结合这些测试。通过对数困惑度与交叉熵率的收敛以及统计模型，该方法表明大部分句子是由语言模型生成的，但也可能有一些句子是通过不同的机制产生的。通过使用真实数据展示了该方法的有效性，并分析了影响其成功的因素。该分析提出了一些未解决的问题，解决这些问题可能会提高该方法的效果。