小红花·文摘

本研究提出了MATH-P-Simple和MATH-P-Hard基准，解决了大语言模型在数学推理能力评估中未考虑的困难扰动问题。研究发现，模型在面对困难扰动时性能显著下降，揭示了盲目记忆现象，强调了提升推理模型稳健性和可靠性的必要性。