可证明鲁棒的开源语言模型水印

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文提出了一种在自回归语言模型中植入水印的方法,确保文本分布不变且对扰动具有鲁棒性。通过随机生成水印密钥,可以创建带水印的文本,知晓密钥者可检测水印。实验表明,OPT-1.3B和LLaMA-7B模型在文本随机编辑后仍能有效检测水印,而Alpaca-7B模型的检测较为困难。

🎯

关键要点

  • 提出了一种在自回归语言模型中植入水印的方法,确保文本分布不变且对扰动具有鲁棒性。
  • 通过随机生成水印密钥,可以创建带水印的文本,知晓密钥者可检测水印。
  • 使用逆变换采样和指数最小采样两种方案来实例化水印方法。
  • 在OPT-1.3B和LLaMA-7B模型中,即使在随机编辑后仍能有效检测水印。
  • Alpaca-7B模型的水印检测较为困难,约25%的响应可以在特定条件下检测到。
➡️

继续阅读