小红花·文摘

苹果团队的研究引发了关于大模型推理崩溃的讨论。最初认为高复杂度任务导致崩溃，后续文章则指出是实验设计问题。最新研究确认，尽管修正了测试设计，模型在长推理和复杂任务中仍存在追踪能力不足的问题。