小红花·文摘

本研究提出了一种水印化方法，有效解决大型语言模型评估中的基准污染问题，能够在不影响基准效用的情况下检测污染迹象。实验结果表明，水印化后基准效用保持不变，并成功识别出显著的污染现象。

BriefGPT - AI 论文速递 ·

本研究针对大型语言模型评估中的基准污染问题，提出了无偏评估者协议，提供了更全面的评估方法，揭示了模型改进的空间及基准污染的证据。

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型中的基准污染问题，发现七个流行的多语言基准在多个模型中均存在污染迹象。这一发现为学术界选择更优的多语言评估基准提供了参考。

BriefGPT - AI 论文速递 ·