数学神经外科：仅通过前向传播 isolating 语言模型的数学推理能力

本研究解决了大语言模型（LLM）中数学推理能力编码的不足，提出了数学神经外科（MathNeuro）的方法，通过仅使用前向传播来孤立数学特定参数。研究发现，通过剔除影响通用语言任务的重要参数，可以在不影响LLM的语言能力的情况下提高其数学性能，提升幅度达4-17%。

Mathador-LM是一个评估大型语言模型数学推理的新基准，结合规则解释与问题求解，动态生成实例以防止测试集泄露。研究表明，现代模型在Mathador-LM上的表现显著低于平均5年级学生。

5年级学生 Mathador-LM 数学推理测试集语言模型