大模型在逻辑推理方面存在短板,尽管在专业知识测试中表现良好,但在日常场景的通用推理中准确率较低。美团LongCat团队发布的General 365基准测试揭示了当前模型的真实能力,强调推理能力与专业知识的解耦。测试结果显示,主流模型普遍未能达到及格线,反映出其在复杂逻辑任务中的不足。
完成下面两步后,将自动完成登录并继续当前操作。