探测 GPT 是否充分利用扰动？基于模型对比学习检测器选择性扰动更佳

我们提出了一种新的检测器，使用选择性策略扰动减轻了随机屏蔽引起的重要信息损失，并使用多对比学习来捕捉扰动过程中的隐含模式信息，从而提高少样本学习性能。在四个公共数据集上，实验证明，我们的模型在准确度上比 SOTA 方法平均提高了 1.20%。我们进一步分析了扰动方法的有效性、稳健性和泛化性。

AuthentiGPT是一个有效的分类器，用于区分机器生成的和人类编写的文本。通过添加人工噪声并比较去噪后的文本与原始文本，AuthentiGPT利用黑盒LLM来消除噪声，判断内容是否为机器生成。AuthentiGPT具有0.918 AUROC分数，显示其在检测机器生成文本方面的有效性和潜力。

AuthentiGPT gpt 人工噪声分类器对比学习机器生成文本黑盒LLM