量子位 ·

苹果炮轰推理模型全是假思考！4个游戏戳破神话，o3/DeepSeek高难度全崩溃

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

苹果最新研究质疑现有推理模型的思考能力，认为其仅为模式匹配，复杂任务时易崩溃。研究设计四类谜题，发现“思考”模型在低复杂度任务中表现不佳，中等复杂度时有优势，但在高复杂度任务中均崩溃。论文呼吁改进推理机制，指出苹果在AI领域进展缓慢，面临多重挑战。

🎯

🔎

苹果的研究揭示了当前推理模型在处理复杂任务时的显著局限性。尽管在中等复杂度任务中表现尚可，但一旦任务复杂度增加，模型的准确率便急剧下降。这一发现提示我们，在选择和应用AI模型时，需谨慎评估其在特定任务中的适用性，尤其是在高复杂度场景下。

苹果在AI领域的进展缓慢，主要由于内部投资不足和管理层对AI的重视程度不够。与竞争对手相比，苹果在技术开发和资源配置上显得滞后。这一现状可能影响其未来在AI市场的竞争力，尤其是在大模型的应用和创新方面。

研究强调了推理模型在思考过程中的质量评估的重要性。仅仅依赖最终答案来判断模型的推理能力可能会导致误导。未来的研究应关注模型在解决问题时的中间步骤和逻辑一致性，以便更全面地理解和改进AI的推理机制。

❓

苹果的研究认为现有推理模型仅为模式匹配，缺乏真正的思考能力，尤其在高复杂度任务中表现不佳。

苹果设计了汉诺塔、跳棋交换、过河问题和积木世界四类谜题来测试推理模型的能力。

在低复杂度任务中，无思考功能的标准模型表现更好，准确率和效率均高于推理模型。

苹果在AI领域面临投资不足、进展缓慢、功能延期和管理层支持不足等多重挑战。

苹果的研究建议应关注推理过程的质量，而不仅仅是最终答案的正确性。

苹果的AI功能多次延期和下架是因为技术不成熟，部分功能无法正常运行。

🏷️