本研究提出了一种水印化方法,有效解决大型语言模型评估中的基准污染问题,能够在不影响基准效用的情况下检测污染迹象。实验结果表明,水印化后基准效用保持不变,并成功识别出显著的污染现象。
本研究针对大型语言模型评估中的基准污染问题,提出了无偏评估者协议,提供了更全面的评估方法,揭示了模型改进的空间及基准污染的证据。
本研究提出了无污染且更具挑战性的多选题基准MMLU-CF,旨在解决大型语言模型评估中的基准污染问题,通过引入多样数据和去污染规则,确保评估结果的可信性。
本研究探讨大语言模型预训练或后训练数据中的基准污染问题,影响评估结果。通过黑箱测试分析7个流行多语言基准在7个知名LLM中的污染情况,几乎所有模型都显示出污染迹象。这一发现帮助学术界选择最佳多语言评估基准。
完成下面两步后,将自动完成登录并继续当前操作。