ICML 2024演讲爆火！Meta朱泽园揭秘大模型内心世界：不同于人类的2级推理

机器之心 ·

ICML 2024演讲爆火！Meta朱泽园揭秘大模型内心世界：不同于人类的2级推理

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

近日，Meta FAIR、CMU和MBZUAI的团队公布了一篇名为《语言模型物理学Part 2.1：小学数学与隐藏的推理过程》的论文。研究发现，大语言模型（LLM）可以学会一级推理，几乎每次都给出最短解答。模型会心算许多对解题无用的信息，这被称为二级推理。研究还表明，模型的深度比宽度更为重要，且模型对深度的依赖无法通过思维链来抵消。即使是GPT-4，在某些推理问题上也只能进行最多10步的推理。现有大模型使用的预训练数据集可能还有改进空间。

🎯

关键要点

Meta FAIR、CMU和MBZUAI团队发布论文《语言模型物理学Part 2.1：小学数学与隐藏的推理过程》。
研究发现大语言模型（LLM）能学会一级推理，几乎每次给出最短解答。
模型会心算许多对解题无用的信息，称为二级推理。
模型的深度比宽度更重要，且深度依赖无法通过思维链抵消。
即使是GPT-4，在某些推理问题上也只能进行最多10步的推理。
现有大模型的预训练数据集可能还有改进空间。
作者创建了iGSM数据集，进行可控实验以研究模型的推理能力。
GPT-2在iGSM上表现良好，能学会1级推理，达到99%正确率。
模型通过心算确定必要变量，能有效进行推理。
模型会心算无关变量，展现出更通用的推理能力。
模型犯错主要有两类：计算不必要变量和当前不可算变量。
作者反驳了大模型缩放定律，强调模型深度的重要性。
模型对深度的依赖源于心算复杂性，心算需要更多层数。
即使使用思维链，模型仍需心算来规划计算步骤。
文章揭示了LLM在解决数学问题时的心理过程，为理解LLM智能提供新视角。
现有模型在推理能力上仍有很大提升空间，人工合成数据可能是改进方向。

❓

延伸问答

大语言模型（LLM）如何进行推理？

大语言模型通过心算和推理技能来解题，能够进行一级推理和二级推理，前者关注必要变量，后者则处理无关信息。

研究中提到的iGSM数据集有什么作用？

iGSM数据集用于控制实验，专门研究模型的推理能力，确保模型接触的问题类别不受其他因素影响。

模型在推理过程中常犯哪些错误？

模型主要犯两类错误：计算不必要的变量和计算当前不可算的变量，这与心算错误有关。

为什么模型的深度比宽度更重要？

模型的深度对推理能力至关重要，因为心算的复杂性需要更多层数来处理与问题变量的关系。

GPT-4在推理能力上有什么限制？

即使是GPT-4，在iGSM数据集上也只能进行最多10步的推理，显示出其推理能力的局限性。

研究对大模型缩放定律有何反驳？

研究反驳了大模型缩放定律，强调模型的表现与深度相关，而不仅仅是参数数量，深度更为重要。

🏷️

继续阅读

Claude Opus 4.8在ARC-AGI-3互动推理测试中得分超1%
Claude Opus 4.8在ARC-AGI-3测试中得分超过1%，尽管分数较低，但显示出AI开始具备原始推理能力。该测试要求AI在新规则下进行自适应推...
大语言模型可解释性入门
文章讨论了大语言模型（LLM）的可解释性，强调动态评估的重要性。尽管LLM在AI领域取得了突破，其内部运作仍不透明。研究者提出了基于SMILE的框架，通过...
大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...
一分钟读论文：《SpecBench：面向软件工程 Agent 的规范级推理评估》
多伦多大学等机构提出了规范级推理评估基准SpecBench，以评估软件工程Agent在规范设计阶段的能力。研究显示，GPT-5.4在基础级任务的准确率为6...
Robert Haas: Hacking Workshop for June/July 2026
I was hoping to usual resume the monthly cadence of hacking workshops in June...
特朗普签署行政命令，要求在发布前审查人工智能模型
特朗普签署行政命令，要求AI公司在发布前自愿向政府分享其模型，以促进安全创新并增强网络安全。该命令强调AI行业的成功与创新不应受到过度监管，同时承认新技术...