💡
原文中文,约3800字,阅读约需9分钟。
📝
内容提要
近日,Meta FAIR、CMU和MBZUAI的团队公布了一篇名为《语言模型物理学Part 2.1:小学数学与隐藏的推理过程》的论文。研究发现,大语言模型(LLM)可以学会一级推理,几乎每次都给出最短解答。模型会心算许多对解题无用的信息,这被称为二级推理。研究还表明,模型的深度比宽度更为重要,且模型对深度的依赖无法通过思维链来抵消。即使是GPT-4,在某些推理问题上也只能进行最多10步的推理。现有大模型使用的预训练数据集可能还有改进空间。
🎯
关键要点
- Meta FAIR、CMU和MBZUAI团队发布论文《语言模型物理学Part 2.1:小学数学与隐藏的推理过程》。
- 研究发现大语言模型(LLM)能学会一级推理,几乎每次给出最短解答。
- 模型会心算许多对解题无用的信息,称为二级推理。
- 模型的深度比宽度更重要,且深度依赖无法通过思维链抵消。
- 即使是GPT-4,在某些推理问题上也只能进行最多10步的推理。
- 现有大模型的预训练数据集可能还有改进空间。
- 作者创建了iGSM数据集,进行可控实验以研究模型的推理能力。
- GPT-2在iGSM上表现良好,能学会1级推理,达到99%正确率。
- 模型通过心算确定必要变量,能有效进行推理。
- 模型会心算无关变量,展现出更通用的推理能力。
- 模型犯错主要有两类:计算不必要变量和当前不可算变量。
- 作者反驳了大模型缩放定律,强调模型深度的重要性。
- 模型对深度的依赖源于心算复杂性,心算需要更多层数。
- 即使使用思维链,模型仍需心算来规划计算步骤。
- 文章揭示了LLM在解决数学问题时的心理过程,为理解LLM智能提供新视角。
- 现有模型在推理能力上仍有很大提升空间,人工合成数据可能是改进方向。
➡️