本研究提出了一种水印化方法,有效解决大型语言模型评估中的基准污染问题,能够在不影响基准效用的情况下检测污染迹象。实验结果表明,水印化后基准效用保持不变,并成功识别出显著的污染现象。
完成下面两步后,将自动完成登录并继续当前操作。