量子位 ·

o3-pro答高难题文字游戏引围观，OpenAI前员工讽刺苹果：这都不叫推理那什么叫推理

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

OpenAI最新的推理模型o3-pro受到关注，但测试显示其推理能力有限，常常只对部分字母正确。前员工Miles Brundage批评苹果的推理研究为模式匹配。o3-pro在短上下文中表现良好，但在长上下文处理上不如Gemini 2.5 Pro。用户Ben Hylak认为，o3-pro需要更多背景信息以发挥最佳能力，并在工具使用和环境理解上有所提升。

🎯

关键要点

OpenAI最新推理模型o3-pro的推理能力受到关注，但测试显示其能力有限。
o3-pro在短上下文中表现良好，但在长上下文处理上不如Gemini 2.5 Pro。
前员工Miles Brundage批评苹果的推理研究为模式匹配，认为这不是真正的推理。
o3-pro在编码方面超越了o3和o1-pro，但在智能体编码得分上落后于o3。
用户Ben Hylak认为o3-pro需要更多背景信息以发挥最佳能力，并在工具使用和环境理解上有所提升。
Ben Hylak分享了使用o3-pro的经验，强调模型能力的发挥依赖于背景信息。
o3-pro在识别环境和工具调用方面表现优于o3，能够更好地理解其所处环境。
Ben Hylak指出，o3-pro在分析和工具使用方面表现出色，但在直接动手做事上不如预期。
推理模型的Prompt技巧核心逻辑不变，语境和系统提示对模型的表现影响巨大。

🏷️

继续阅读

OpenAI和谷歌的员工支持Anthropic对五角大楼的诉讼
致命自主武器在新环境中表现不可靠，无法准确识别目标，缺乏人类判断能力，因此决策过程中需有人类参与以确保安全。
苹果官宣核心管理层调整；英伟达停产向中国销售H200芯片；安世荷兰批量禁用安世中国员工办公软件
苹果调整管理层，英伟达停产H200芯片，安世禁止中国员工使用办公软件，腾讯推出OpenClaw引发用户排队，甲骨文计划裁员。
苹果智能家居显示器的传闻现在指向将在秋季发布，搭载iOS 27
传闻中的带屏幕HomePod原定于2025年发布，现已推迟至秋季。泄密者Kosutami和彭博社记者Mark Gurman确认，配备机器人手臂的版本计划在2027年发布。
如果你三年前购买了笔记本电脑，苹果的新M5 Max感觉像是一次巨大的升级
M5 Max在性能上显著优于M2 Max，单核性能提升55%，多核性能几乎翻倍，GPU渲染性能提升64%，在Premiere Pro中4K导出时间减少30%。
《现金苹果》在网络浏览器中点击树木的用户将获得50万美元的奖励
美国居民今天下午1点（太平洋时间）可以在网络游戏“现金苹果”中寻找金苹果，收集足够可获$40，每天最多五次，五天内总奖金为$500,000。
Macbook Neo：苹果重回校园的起点 - 肘子的 Swift 周报 #126
TelemetryDeck 证明了 Swift on Server 的可行性，支持每月处理超过 1600 万用户数据的分析服务。Daniel Jilg 分...

o3-pro答高难题文字游戏引围观，OpenAI前员工讽刺苹果：这都不叫推理那什么叫推理

内容提要

关键要点

标签

继续阅读