小红花·文摘

大型语言模型（LLM）如GPT-4和Claude-3的快速发展引发了基准数据污染（BDC）问题。本文探讨了BDC的挑战及替代评估方法，提出了检测和减轻数据污染的创新方法，如“Testset Slot Guessing”和CDD，显示出显著的性能改进。研究强调了确保LLM评估可靠性的必要性，并提出了最佳实践和未来方向。