o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理 各大评测榜最新排名也出炉了 OpenAI最新的推理模型o3-pro受到关注,但测试显示其推理能力有限,常常只对部分字母正确。前员工Miles Brundage批评苹果的推理研究为模式匹配。o3-pro在短上下文中表现良好,但在长上下文处理上不如Gemini 2.5 Pro。用户Ben Hylak认为,o3-pro需要更多背景信息以发挥最佳能力,并在工具使用和环境理解上有所提升。 o3 o3-pro openai 推理能力 模式匹配 短上下文 苹果 长上下文