小红花·文摘

本文分析了大型语言模型（LLMs）在数学推理中的表现，通过研究50个高中词题识别推理失败。结果显示，尽管模型的准确性有所提升，但在空间推理、战略规划和算术方面仍存在错误，强调仅评估答案的局限性，并指出LLMs在结构化推理和约束处理上的不足。