仅十个词仍然有所帮助:通过代理引导的高效再采样改进黑盒 AI 生成文本检测
原文中文,约400字,阅读约需1分钟。发表于: 。通过多次重采样的方式,利用伪白盒特征估计单词生成的概率以帮助改进黑盒环境下的人工智能生成文本检测,本文提出了 POGER 方法,即代理引导的高效重采样方法,在黑盒、部分白盒和超分布环境下,POGER 表现出更优的宏 F1 值,并且相较于现有方法,维持较低的重采样成本。
AuthentiGPT是一个有效的分类器,用于区分机器生成的和人类编写的文本。它通过添加人工噪声并比较去噪后的文本与原始文本,利用黑盒LLM来消除噪声,判断内容是否为机器生成。AuthentiGPT具有0.918 AUROC分数,显示其在检测机器生成文本方面的有效性和潜力。