大型语言模型在数学推理基准测试上取得成功,但担心其中一部分性能是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
完成下面两步后,将自动完成登录并继续当前操作。