大型语言模型的语义不变鲁棒水印
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
该文介绍了一种在自回归语言模型中种植水印的方法,可以在不改变文本分布的情况下对扰动具有鲁棒性。该方法在三个语言模型上进行了实验验证,即使在通过随机编辑破坏了40-50%的标记之后,仍然可以可靠地检测到带水印的文本。
🎯
关键要点
- 提出了一种在自回归语言模型中种植水印的方法。
- 该方法在不改变文本分布的情况下对扰动具有鲁棒性。
- 使用随机水印密钥计算的随机数序列生成带水印的文本。
- 检测带水印的文本需要知道密钥的一方将文本与随机数序列对齐。
- 采用逆变换采样和指数最小采样两种方案来实例化水印方法。
- 在三个语言模型上进行实验验证,包括OPT-1.3B、LLaMA-7B和Alpaca-7B。
- 即使在随机编辑破坏40-50%标记后,仍能可靠检测带水印的文本。
- 对于Alpaca-7B模型,水印响应的检测较为困难,约25%的响应可以被检测到。
➡️