可证明鲁棒的开源语言模型水印

本研究针对传统水印技术在开源语言模型中应用的局限性提出了解决方案，开发了一个新的水印方案，可以通过模型输出进行检测，同时确保水印在特定条件下无法被移除。实验结果表明，该水印方案具有较强的鲁棒性，甚至在攻击下仍能维持高检测率，显示了其在确保生成文本安全性中的重要潜力。

本文提出了一种在自回归语言模型中植入水印的方法，确保文本分布不变且对扰动具有鲁棒性。通过随机生成水印密钥，可以创建带水印的文本，知晓密钥者可检测水印。实验表明，OPT-1.3B和LLaMA-7B模型在文本随机编辑后仍能有效检测水印，而Alpaca-7B模型的检测较为困难。

开源文本编辑检测水印自回归语言模型语言模型鲁棒性