小红花·文摘

本研究解决了数据污染对语言模型评估基准有效性所造成的影响。通过系统地分析在不同阶段和规模下的数据污染对机器翻译任务性能指标的影响，发现数据污染导致的BLEU分数膨胀在8B模型中比1B模型高出2.5倍（最多可达30个BLEU点）。这一发现为评估语言模型的可靠性提供了重要的见解。