爱范儿 ·

刚刚，OpenAI 最强推理模型 o3 发布！首次能用图片思考，奥特曼：天才水平 | 附实测细节

💡 原文中文，约5100字，阅读约需12分钟。

📝

内容提要

OpenAI正式发布o3和o4-mini模型，推理能力显著提升，支持图像处理、网页搜索和Python代码执行。o3在编程和视觉任务上表现优异，被称为“天才级”，但仍存在一些错误。

🎯

🔎

OpenAI的o3和o4-mini模型在推理能力上有显著提升，支持图像处理和网页搜索等多种功能。这使得它们适用于更广泛的场景，从高级研究到普通用户的日常需求都能得到满足。用户可以利用这些模型进行复杂的数据分析和编程任务，提升工作效率。

o3和o4-mini首次将图像直接融入思维链，开启了视觉与文本推理的新方式。然而，这种方法也存在潜在的缺陷，如过度依赖工具和可能的视觉误解，导致推理结果不稳定。用户在使用时需注意这些风险，以确保获得准确的答案。

新模型在成本效率上优于前代，o3和o4-mini的推出可能会改变AI编程工具市场的竞争格局。随着OpenAI计划收购相关公司，未来可能会进一步增强其市场地位。用户在选择AI工具时，可以关注这些模型的性价比和适用场景，以做出更明智的决策。

❓

o3模型首次支持图像处理、网页搜索、文件分析和Python代码执行等功能。

o3在推理能力上显著提升，能够更长时间思考复杂问题，并在编程、数学和视觉感知领域创下新纪录。

o4-mini模型体型更小，优化了快速、低成本推理，适合需要快速响应的场景。

OpenAI通过强化学习训练o3和o4-mini模型，使其能够快速生成可靠答案并有效使用工具。

o3在实际应用中表现出色，能够准确解读图像并生成相关内容，但在某些复杂问题上仍存在错误。

Codex CLI支持多模态输入，已在GitHub开源，能够通过图像分析生成代码，具有建议和全自动两种模式。

🏷️