小红花·文摘

本研究探讨了基准数据污染对大规模语言模型评估的影响，并系统性检验了现有缓解策略的有效性。结果表明，现有策略未能显著提高抵御污染的能力，强调了设计更有效缓解策略的必要性。

The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for Benchmark Data Contamination in Large Language Models

BriefGPT - AI 论文速递 ·

大型语言模型（LLM）如GPT-4和Claude-3的快速发展引发了基准数据污染（BDC）问题。本文探讨了BDC的挑战及替代评估方法，提出了检测和减轻数据污染的创新方法，如“Testset Slot Guessing”和CDD，显示出显著的性能改进。研究强调了确保LLM评估可靠性的必要性，并提出了最佳实践和未来方向。

PaCoST：大型语言模型中用于基准污染检测的配对置信度显著性测试

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）如GPT-4的快速发展引发了基准数据污染（BDC）问题。本文探讨了BDC的挑战及其对LLM评估的影响，并提出改进评估方法的建议。研究表明，数据污染在模型评估中显著存在，呼吁采用更强大的评估技术以确保模型的可靠性和透明度。

VarBench: 动态变量扰动下的鲁棒语言模型基准测试

BriefGPT - AI 论文速递 ·