机器之心 ·

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

OpenAI的新模型o3在ARC-AGI基准测试中表现优异，最低准确率为75.7%，最高可达87.5%。尽管在多个任务上取得进展，但仍有34个任务未能解决，显示出与人类智能的差距，尤其在空间思维能力方面存在局限。

🎯

🔎

OpenAI的新模型o3在ARC-AGI基准测试中表现出色，但其计算成本也相当高。在低计算量模式下，每个任务的费用为17-20美元，而在高计算量模式下则可能达到数千美元。这意味着在实际应用中，使用o3进行复杂任务时需要考虑经济因素，尤其是在大规模部署时。

尽管o3在多个任务上取得了进展，但在空间思维能力相关的任务上表现不佳，甚至在某些情况下选择放弃尝试。这表明，尽管技术在不断进步，AI在处理复杂的空间关系时仍然存在根本性差距，未来的研究可能需要更多关注这一领域。

o3在ARC-AGI基准中仍有34个任务未能解决，显示出与人类智能的显著差距。即使在简单任务上，o3也可能出现错误，这提示我们在追求AGI的过程中，仍需谨慎评估AI的能力和局限性，避免过于乐观的预期。

❓

o3在ARC-AGI基准测试中的最低准确率为75.7%，最高可达87.5%。

o3在处理空间思维能力相关的任务时表现不佳，甚至在某些情况下选择放弃尝试。

在低计算量模式下，每个任务需要17-20美元，高计算量模式下每个任务数千美元。

o3在34个任务上未能解决，显示出与人类智能的根本差距，尤其在空间思维能力方面。

o3的表现难以解释，可能是因为模型意识到自己的错误，触发了某种预设机制。

o3的突破标志着人工智能能力发生质的转变，能够适应以前未遇到的任务，接近人类水平的表现。

🏷️