谁写的?零样本长文本生成文本检测的关键是 GECScore
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本研究提出了一种对LLMs生成的代码进行训练无关的检测方法,利用代理的白盒模型来识别由语言模型生成的代码片段。实验结果表明该方法在多个模型上取得了最新的检测结果,并对修订攻击具有鲁棒性,对Java代码具有通用性。同时发现较小的代码语言模型PolyCoder-160M表现优于十亿级别的对应模型。
🎯
关键要点
-
提出了一种对LLMs生成的代码进行训练无关的检测方法。
-
该方法旨在减少与无差别使用LLMs生成代码相关的风险。
-
现有的基于训练或零样本的文本检测方法对代码检测不够有效。
-
研究通过修改零样本文本检测方法,利用代理的白盒模型识别生成的代码片段。
-
在CodeContest和APPS数据集上进行大量实验,取得了最新的检测结果。
-
该方法对修订攻击具有鲁棒性,并对Java代码具有良好的通用性。
-
较小的代码语言模型PolyCoder-160M在通用代码检测中表现优于十亿级别的模型。
-
代码可在指定的GitHub链接获取。
🏷️
标签
➡️