基于信息熵的文本水印检测方法
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
本文介绍了一种在自回归语言模型中种植水印的方法,该方法对扰动具有鲁棒性,并且不改变文本分布。通过使用随机水印密钥计算的随机数序列映射到语言模型的样本来生成带水印的文本。实验证明该方法对各种释义攻击具有统计功率和鲁棒性。
🎯
关键要点
- 提出了一种在自回归语言模型中种植水印的方法,具有鲁棒性且不改变文本分布。
- 使用随机水印密钥计算的随机数序列映射到语言模型的样本生成带水印的文本。
- 任何知道密钥的一方可以通过将文本与随机数序列对齐来检测带水印的文本。
- 水印方法通过逆变换采样和指数最小采样两种方案实例化。
- 在三个语言模型(OPT-1.3B,LLaMA-7B 和 Alpaca-7B)上进行实验,证明其对各种释义攻击的统计功率和鲁棒性。
- 在 OPT-1.3B 和 LLaMA-7B 模型中,即使在随机编辑破坏 40-50% 的标记后,仍能可靠检测带水印的文本。
- 对于 Alpaca-7B 模型,水印响应的检测更加困难,约 25% 的响应可以在 p≤0.01 的条件下检测到。
➡️