谁写的?零样本长文本生成文本检测的关键是 GECScore

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本研究提出了一种对LLMs生成的代码进行训练无关的检测方法,利用代理的白盒模型来识别由语言模型生成的代码片段。实验结果表明该方法在多个模型上取得了最新的检测结果,并对修订攻击具有鲁棒性,对Java代码具有通用性。同时发现较小的代码语言模型PolyCoder-160M表现优于十亿级别的对应模型。

🎯

关键要点

  • 提出了一种对LLMs生成的代码进行训练无关的检测方法。

  • 该方法旨在减少与无差别使用LLMs生成代码相关的风险。

  • 现有的基于训练或零样本的文本检测方法对代码检测不够有效。

  • 研究通过修改零样本文本检测方法,利用代理的白盒模型识别生成的代码片段。

  • 在CodeContest和APPS数据集上进行大量实验,取得了最新的检测结果。

  • 该方法对修订攻击具有鲁棒性,并对Java代码具有良好的通用性。

  • 较小的代码语言模型PolyCoder-160M在通用代码检测中表现优于十亿级别的模型。

  • 代码可在指定的GitHub链接获取。

➡️

继续阅读