发现伪造大型语言模型水印的线索
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了大型语言模型水印面临的伪造攻击问题,之前的研究未能深入分析伪造文本的性质。我们首次揭示了真实和伪造水印文本之间的可观察差异,并提出了可靠的统计测试方法来识别这些伪造迹象,从而为防止水印伪造提供了新的思路和方法。
研究探讨了通过数据水印检测版权作品在大语言模型预训练中的应用。采用随机抽样将检测问题转化为假设检验,确保虚警率。分析了水印长度、复制次数和干扰对检测能力的影响。尽管数据集增大会降低检测力,但模型增大可保持水印强度。使用SHA哈希作为自然水印,成功检测到BLOOM-176B训练数据中的哈希,至少出现90次。结果显示数据水印在实际应用中具有广阔前景。