近日,Meta FAIR、CMU和MBZUAI的团队公布了一篇名为《语言模型物理学Part 2.1:小学数学与隐藏的推理过程》的论文。研究发现,大语言模型(LLM)可以学会一级推理,几乎每次都给出最短解答。模型会心算许多对解题无用的信息,这被称为二级推理。研究还表明,模型的深度比宽度更为重要,且模型对深度的依赖无法通过思维链来抵消。即使是GPT-4,在某些推理问题上也只能进行最多10步的推理。现有大模型使用的预训练数据集可能还有改进空间。
完成下面两步后,将自动完成登录并继续当前操作。