o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理

各大评测榜最新排名也出炉了

OpenAI最新的推理模型o3-pro受到关注,但测试显示其推理能力有限,常常只对部分字母正确。前员工Miles Brundage批评苹果的推理研究为模式匹配。o3-pro在短上下文中表现良好,但在长上下文处理上不如Gemini 2.5 Pro。用户Ben Hylak认为,o3-pro需要更多背景信息以发挥最佳能力,并在工具使用和环境理解上有所提升。

原文中文,约3300字,阅读约需8分钟。发表于:
阅读原文