量子位 ·

快来看看GPT-5第一波实测

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

GPT-5发布后引发热议，Youtuber Berman展示其在魔方、网页Word、Excel等任务中的表现。尽管表现出色，但也遭到质疑，尤其是马斯克认为其不如Grok 4。GPT-5在多模态能力和长文本处理上有显著提升，但仍存在一些问题。

🎯

🔎

GPT-5在多模态能力上有显著提升，能够处理图像和文本的结合任务。然而，在一些复杂场景中，如数数时仍存在惯性思维的问题。这表明尽管技术进步，但在理解和推理方面仍需进一步优化。

尽管GPT-5在多个榜单中表现优异，但马斯克等竞争对手对其能力提出质疑，认为其不如Grok 4。这反映出市场对新技术的高度关注与竞争的激烈，用户在选择时需关注不同产品的实际表现。

在用户体验方面，GPT-5的某些应用设计遭到吐槽，尤其是法语学习网站的界面。设计的美观性与功能性同样重要，开发者在追求技术创新的同时，也应重视用户的视觉体验。

❓

GPT-5成功生成、打乱和复原任意阶数的魔方，表现出色。

马斯克认为GPT-5的表现不如Grok 4，并对此表示质疑。

GPT-5在长文本处理能力上有显著提升，相比于之前的版本表现更好。

GPT-5的Pro版本部分解决了大模型被表象迷惑的问题，成功识破了修改版的“外科医生谜语”。

GPT-5在多模态能力上有显著提升，但在数数场景中仍存在惯性思维的问题。

在用户自行投票的大模型竞技场上，GPT-5获得了总分和各个单项的第一名。

🏷️