本研究提出了一种基于水印技术的框架,以保护大型语言模型的输出安全性。通过嵌入不可察觉的信号并结合统计学方法检测水印的敏感性,提升模型的鲁棒性。实验结果表明,该方法在多种语言模型中有效,能够抵御多种攻击,确保文本质量和安全性。
完成下面两步后,将自动完成登录并继续当前操作。