你的语言模型可以秘密地像人类一样写作:对大型语言模型生成文本检测器的对比性改写攻击

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

本研究提出了一种新的对比性改写攻击方法(CoPA),旨在绕过大型语言模型(LLMs)的文本检测。CoPA通过设计指令,利用现有LLMs生成更人性化的文本,并构建辅助特征词分布,从而降低检测率。实验结果表明,CoPA在多种场景下有效。

🎯

关键要点

  • 本研究提出了一种新的对比性改写攻击方法(CoPA),旨在绕过大型语言模型(LLMs)的文本检测。
  • CoPA通过设计指令,利用现有LLMs生成更人性化的文本。
  • 该方法构建辅助特征词分布,从而降低检测率。
  • 实验结果表明,CoPA在多种场景下有效。
➡️

继续阅读