我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变难度,降低记忆泄露基准测试导致的性能夸大影响。实验结果表明,ITD方法在GSM8K上可以降低22.9%的夸大准确性,在MMLU上可以降低19.0%。希望ITD方法能为大型语言模型提供更真实的评估结果。
完成下面两步后,将自动完成登录并继续当前操作。