谁写的?零样本长文本生成文本检测的关键是 GECScore
本研究提出了一种对LLMs生成的代码进行训练无关的检测方法,利用代理的白盒模型来识别由语言模型生成的代码片段。实验结果表明该方法在多个模型上取得了最新的检测结果,并对修订攻击具有鲁棒性,对Java代码具有通用性。同时发现较小的代码语言模型PolyCoder-160M表现优于十亿级别的对应模型。
原文中文,约500字,阅读约需2分钟。
本研究提出了一种对LLMs生成的代码进行训练无关的检测方法,利用代理的白盒模型来识别由语言模型生成的代码片段。实验结果表明该方法在多个模型上取得了最新的检测结果,并对修订攻击具有鲁棒性,对Java代码具有通用性。同时发现较小的代码语言模型PolyCoder-160M表现优于十亿级别的对应模型。