GSM-Symbolic：理解大型语言模型中数学推理的局限性

本研究针对大型语言模型（LLMs）在数学推理能力上的不足，通过引入GSM-Symbolic基准，解决了现有评估的局限性，提供了更可靠的度量指标。研究发现，尽管LLMs在GSM8K基准测试上表现改进，但其真实的数学推理能力仍然不佳，特别是在问题中添加额外条款时性能急剧下降。这一发现为理解LLMs的能力和限制提供了新的视角。

研究者提出数学主题树（MaTT）基准，包含1,958个问题，用于评估大语言模型的数学推理能力。结果显示，GPT-4在多项选择题中的准确率为54%，无选项时下降24.2个百分点。即使使用思维链提示，改进效果不明显。手动评估发现，GPT-4在正确回答时，仅有53.3%的解释完整准确，显示其推理能力有限。

GPT-4 MaTT基准准确率大型语言模型思维链提示数学推理