本研究提出了MATH-P-Simple和MATH-P-Hard基准,解决了大语言模型在数学推理能力评估中未考虑的困难扰动问题。研究发现,模型在面对困难扰动时性能显著下降,揭示了盲目记忆现象,强调了提升推理模型稳健性和可靠性的必要性。
完成下面两步后,将自动完成登录并继续当前操作。