BriefGPT - AI 论文速递 ·

谁写的？零样本长文本生成文本检测的关键是 GECScore

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本研究提出了一种对LLMs生成的代码进行训练无关的检测方法，利用代理的白盒模型来识别由语言模型生成的代码片段。实验结果表明该方法在多个模型上取得了最新的检测结果，并对修订攻击具有鲁棒性，对Java代码具有通用性。同时发现较小的代码语言模型PolyCoder-160M表现优于十亿级别的对应模型。

🎯

关键要点

提出了一种对LLMs生成的代码进行训练无关的检测方法。
该方法旨在减少与无差别使用LLMs生成代码相关的风险。
现有的基于训练或零样本的文本检测方法对代码检测不够有效。
研究通过修改零样本文本检测方法，利用代理的白盒模型识别生成的代码片段。
在CodeContest和APPS数据集上进行大量实验，取得了最新的检测结果。
该方法对修订攻击具有鲁棒性，并对Java代码具有良好的通用性。
较小的代码语言模型PolyCoder-160M在通用代码检测中表现优于十亿级别的模型。
代码可在指定的GitHub链接获取。

🏷️

继续阅读

维基百科严厉打击在词条中使用AI生成内容但可以用AI提出编辑建议
维基百科决定禁止使用人工智能生成或重写文章内容，投票结果为40:2。虽然允许AI提出编辑建议，但必须经过人工审阅，以防止虚假信息传播。维基百科强调不希望用...
98.5% 的人都不知道：SSH 居然还有个“隐藏菜单”
你有没有遇到过这种情况：SSH 卡住了，Ctrl+C 没反应，只能关窗口重来？其实不用这么麻烦。SSH 自带一个“逃生命令”，按两下键就能强制退出。但知道...
黑灰产团伙在GitHub发布海量菠菜广告 WSL等多个项目的Issue被爆破
黑灰产团伙在GitHub上针对多个知名项目，尤其是微软的WSL项目，发布了超过7000条菠菜网站广告，超出项目团队处理能力，预计GitHub将封禁相关账号并清理记录。
尽管安娜的档案无人应诉且无视法院权威但Spotify仍然寻求3.22亿美元赔偿
# 行业资讯尽管安娜的档案无人应诉且无视法院权威，但 Spotify 和唱片公司仍然寻求 3.22 亿美元赔偿，最高赔偿金额为 1,300,000,00...
微软已经撤回Windows 11 KB5079391号可选更新原因是出现循环安装
微软因循环安装问题撤回了Windows 11的可选更新KB5079391，该更新导致0x80073712错误。该更新主要用于测试功能改动，推送后2小时内被...
无意识胜任
高度专注的心没有空间去思考身体做得有多好，更不用说去琢磨具体该怎么做。当一个人处在这种状态时，几乎没有什么会干 […]

谁写的？零样本长文本生成文本检测的关键是 GECScore

内容提要

关键要点

标签

继续阅读