量子位 ·

大模型参与推理崩溃论战！从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

苹果团队的研究引发了关于大模型推理崩溃的讨论。最初认为高复杂度任务导致崩溃，后续文章则指出是实验设计问题。最新研究确认，尽管修正了测试设计，模型在长推理和复杂任务中仍存在追踪能力不足的问题。

🎯

关键要点

苹果团队的研究引发了关于大模型推理崩溃的讨论。
最初认为高复杂度任务导致崩溃，后续文章指出是实验设计问题。
最新研究确认，尽管修正了测试设计，模型在长推理和复杂任务中仍存在追踪能力不足的问题。
原研究通过设计4类谜题环境观察模型在不同复杂度下的行为变化。
低复杂度任务中，不思考模型表现更好；中等复杂度时，推理模型开始显现优势。
当问题复杂度超过临界点时，模型会经历性能崩溃，准确率下降至零。
第二篇文章指出原研究存在测试瑕疵，进行了模型重新验证。
最新的第三篇文章认同第二篇的修正，但强调模型在长推理中仍会崩溃。
模型在长序列任务中的失败反映了持续高保真执行的内在缺陷。
大模型在维持非常长的推理链方面仍然存在真正的弱点，需后续研究跟进。

❓

延伸问答

苹果团队的研究主要讨论了什么问题？

苹果团队的研究主要讨论了大模型在高复杂度任务中的推理崩溃问题。

最初认为大模型崩溃的原因是什么？

最初认为大模型崩溃是由于高复杂度任务导致的。

后续研究对原研究的观点提出了什么修正？

后续研究指出原研究存在实验设计问题，强调崩溃是人为因素造成的。

大模型在低复杂度和中等复杂度任务中的表现如何？

在低复杂度任务中，不思考模型表现更好；中等复杂度时，推理模型开始显现优势。

最新研究对大模型在长推理中的表现有什么结论？

最新研究确认，尽管修正了测试设计，模型在长推理中仍存在崩溃问题。

大模型在长序列任务中失败的原因是什么？

大模型在长序列任务中失败反映了持续高保真执行的内在缺陷。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
为什么Java在大程序里比C++和Rust更快？系统思维取胜
在大规模程序中，Java的性能通常优于C++和Rust。底层语言为了控制和最坏情况表现，牺牲了全局优化能力，导致内存管理和并发处理效率低下。Java通过灵...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
驱动推理时代：深入了解DigitalOcean数据与学习层
构建AI原生应用需要同时处理结构化和非结构化数据。DigitalOcean推出了统一的数据与学习层，支持PostgreSQL和MySQL高级版，简化数据管...