你的语言模型可以秘密地像人类一样写作:对大型语言模型生成文本检测器的对比性改写攻击
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
本研究提出了一种新的对比性改写攻击方法(CoPA),旨在绕过大型语言模型(LLMs)的文本检测。CoPA通过设计指令,利用现有LLMs生成更人性化的文本,并构建辅助特征词分布,从而降低检测率。实验结果表明,CoPA在多种场景下有效。
🎯
关键要点
- 本研究提出了一种新的对比性改写攻击方法(CoPA),旨在绕过大型语言模型(LLMs)的文本检测。
- CoPA通过设计指令,利用现有LLMs生成更人性化的文本。
- 该方法构建辅助特征词分布,从而降低检测率。
- 实验结果表明,CoPA在多种场景下有效。
➡️