可证明鲁棒的开源语言模型水印
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文提出了一种在自回归语言模型中植入水印的方法,确保文本分布不变且对扰动具有鲁棒性。通过随机生成水印密钥,可以创建带水印的文本,知晓密钥者可检测水印。实验表明,OPT-1.3B和LLaMA-7B模型在文本随机编辑后仍能有效检测水印,而Alpaca-7B模型的检测较为困难。
🎯
关键要点
- 提出了一种在自回归语言模型中植入水印的方法,确保文本分布不变且对扰动具有鲁棒性。
- 通过随机生成水印密钥,可以创建带水印的文本,知晓密钥者可检测水印。
- 使用逆变换采样和指数最小采样两种方案来实例化水印方法。
- 在OPT-1.3B和LLaMA-7B模型中,即使在随机编辑后仍能有效检测水印。
- Alpaca-7B模型的水印检测较为困难,约25%的响应可以在特定条件下检测到。
➡️