大型语言模型的语义不变鲁棒水印

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

该文介绍了一种在自回归语言模型中种植水印的方法,可以在不改变文本分布的情况下对扰动具有鲁棒性。该方法在三个语言模型上进行了实验验证,即使在通过随机编辑破坏了40-50%的标记之后,仍然可以可靠地检测到带水印的文本。

🎯

关键要点

  • 提出了一种在自回归语言模型中种植水印的方法。
  • 该方法在不改变文本分布的情况下对扰动具有鲁棒性。
  • 使用随机水印密钥计算的随机数序列生成带水印的文本。
  • 检测带水印的文本需要知道密钥的一方将文本与随机数序列对齐。
  • 采用逆变换采样和指数最小采样两种方案来实例化水印方法。
  • 在三个语言模型上进行实验验证,包括OPT-1.3B、LLaMA-7B和Alpaca-7B。
  • 即使在随机编辑破坏40-50%标记后,仍能可靠检测带水印的文本。
  • 对于Alpaca-7B模型,水印响应的检测较为困难,约25%的响应可以被检测到。
➡️

继续阅读