GSM-Symbolic:解析大型语言模型在数学推理中的局限性
原文英文,约300词,阅读约需2分钟。发表于: 。Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the...
最近,大型语言模型在数学推理能力上的进展引起关注。尽管在GSM8K测试中表现提升,但其推理能力仍存疑。研究引入GSM-Symbolic基准,通过符号模板生成多样化问题,更可靠地评估推理能力。发现模型在处理相同问题的不同实例时表现不一,尤其数值变化时表现下降。增加问题条款数量会显著降低性能,表明当前模型无法进行真正的逻辑推理,仅是复制训练数据中的步骤。