苹果团队的研究引发了关于大模型推理崩溃的讨论。最初认为高复杂度任务导致崩溃,后续文章则指出是实验设计问题。最新研究确认,尽管修正了测试设计,模型在长推理和复杂任务中仍存在追踪能力不足的问题。
完成下面两步后,将自动完成登录并继续当前操作。