小红花·文摘

本研究提出了一种基于水印技术的框架，以保护大型语言模型的输出安全性。通过嵌入不可察觉的信号并结合统计学方法检测水印的敏感性，提升模型的鲁棒性。实验结果表明，该方法在多种语言模型中有效，能够抵御多种攻击，确保文本质量和安全性。