量子位 ·

中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

中杯o3在ARC-AGI测试中得分57%，成本仅1.5美元/任务，成为OpenAI模型的性价比之王。尽管成绩较之前的o3模型有所下降，但在推理能力和成本优化方面表现优于94%的专业病毒学家。ARC-AGI测试旨在评估AI智力，o3首次挑战即取得佳绩。

🎯

关键要点

中杯o3在ARC-AGI测试中得分57%，成本为1.5美元/任务，成为OpenAI模型的性价比之王。
o3的得分比第二名翻倍，且成本仅为1/20。
o3在ARC-AGI-1测试中表现优于所有已知COT推理模型。
与2024年12月发布的o3模型相比，最新成绩有所下降。
最新的o3模型并未专门针对ARC-AGI测试进行训练。
o3在专业病毒学领域的准确率为43.8%，优于94%的专业病毒学家。
ARC-AGI测试旨在评估AI的智力，包含拼图问题以测试AI的适应能力。
ARC-AGI-2版本引入了更高难度的任务，测试模型获取新技能的能力。
o3在准确率和成本优化方面表现出色，无法在其他地方找到同等级别的AI推理能力。
ARC官方发现早期响应准确率更高，高级推理可能效率低下。

🔎

延伸解读

性价比的实际意义

中杯o3在ARC-AGI测试中以1.5美元的成本取得57%的得分，显示出其在AI推理能力上的高性价比。这意味着企业和开发者在选择AI模型时，可以以更低的成本获得相对较高的性能，适合预算有限的项目。

模型性能的变化

尽管中杯o3在ARC-AGI测试中表现出色，但与2024年发布的o3模型相比，其得分有所下降。这提醒用户在选择模型时，需关注模型的训练背景和适用场景，以确保其性能符合实际需求。

高级推理的挑战

ARC官方发现，高级推理任务的效率可能低于预期，尤其是在使用更多token的情况下。这提示开发者在使用o3模型时，需谨慎评估其在复杂任务中的表现，以避免潜在的效率损失。

❓

延伸问答

中杯o3在ARC-AGI测试中的得分是多少？

中杯o3在ARC-AGI测试中得分为57%。

中杯o3的成本是多少？

中杯o3的成本为1.5美元/任务。

中杯o3与其他模型相比有什么优势？

中杯o3的得分比第二名翻倍，且成本仅为1/20，表现优于94%的专业病毒学家。

ARC-AGI测试的目的是什么？

ARC-AGI测试旨在评估AI的智力，包含拼图问题以测试AI的适应能力。

中杯o3的准确率在专业病毒学领域如何？

中杯o3在专业病毒学领域的准确率为43.8%，优于94%的专业病毒学家。

为什么中杯o3的得分在不同测试中有所变化？

中杯o3的得分变化是因为最新模型并未专门针对ARC-AGI测试进行训练，且与之前的模型并不相同。

🏷️

标签

ARC-AGI agi arc o3 openai 性价比推理能力病毒学家

➡️

继续阅读

OpenAI大牛公布自家Harness工程模板：自我改进的RSI知识库
2026年造个百万行代码的产品，零行人工手写，三个月干完，凭啥？ OpenAI内部团队搞了个狠活：从空的Git仓库起步，五个月堆出百万行代码，全靠Code...
OpenAI大牛开源自家Harness工程：自我改进RSI模板
2026年造个百万行代码的产品，零行人工手写，三个月干完，凭啥？ OpenAI内部团队搞了个狠活：从空的Git仓库起步，五个月堆出百万行代码，全靠Code...
锂电池也要交消费税了买电车成本或增加千元
【TechWeb】7月19日消息，近日，财政部、海关总署、税务总局联合发布公告称，自2026年9月1日起，对锂原电池、锂离子蓄电池等此前免征消费税的电池产...
Dave Eggers told OpenAI staff that ChatGPT was ‘silencing an entire generation’
Last year, Sam Altman invited author Dave Eggers to give a talk to around 200...
光鉴科技发布具身智能视觉感知方案，为物理AI提供视觉感知基础
WAIC 2026｜智象未来发布全球首个无限时长内容创作智能体——vivago R1