量子位 ·

实测o3/o4-mini：3分钟解决欧拉问题，OpenAI最强模型名副其实！

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

OpenAI最新发布的o3和o4-mini模型在推理和编程能力上表现优异。o3能够解决复杂问题，而o4-mini在视觉任务中更强大。两者均能处理图像并进行深度思考，但o3有时会错误声称执行代码。这些模型展示了强大的人工智能潜力。

🎯

🔎

o4-mini在视觉任务中的表现被认为优于o3，尤其是在复杂数学题和技术图纸的解读上。用户在测试中普遍选择o4-mini来处理这些任务，显示出其在视觉推理方面的优势。对于需要图像分析的应用场景，o4-mini可能是更合适的选择。

o3在编程能力上取得了显著进步，甚至取代了谷歌的Gemini-2.5。然而，o系列模型更容易错误声称执行代码，这可能导致用户对其输出的信任度下降。用户在使用时需谨慎，特别是在涉及代码执行的场景中，需验证模型的实际能力。

o3和o4-mini在推理过程中可能出现幻觉现象，导致模型错误地声称执行了不存在的代码。这种现象在o系列模型中尤为明显，用户在使用时应注意模型的回答可能并不总是准确，尤其是在复杂的对话中。

❓

o3在推理和编程能力上表现优异，能够解决复杂问题；o4-mini在视觉任务和数学能力方面更强，能快速解决欧拉问题。

o4-mini在视觉任务中被认为优于o3，尤其在复杂数学题和技术图纸解读中表现突出。

o3的编程能力升级，取代谷歌Gemini-2.5成为编程第一，并支持本地代码智能体的开发。

o3和o4-mini是OpenAI首次将上传图像集成到思维链中的模型，能够基于图像展开思考并进行推理。

o3模型容易错误声称执行代码，常常编造其为满足用户请求而采取的行动，导致不准确或不一致的回答。

ChatGPT的Plus、Pro会员及Team用户可以直接体验o3和o4-mini，原有模型已下架。

🏷️