快来看看GPT-5第一波实测

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

GPT-5发布后引发热议,Youtuber Berman展示其在魔方、网页Word、Excel等任务中的表现。尽管表现出色,但也遭到质疑,尤其是马斯克认为其不如Grok 4。GPT-5在多模态能力和长文本处理上有显著提升,但仍存在一些问题。

🎯

关键要点

  • GPT-5发布引发热议,Youtuber Berman展示其在魔方、网页Word、Excel等任务中的表现。
  • Berman利用GPT-5成功生成魔方、复刻网页版Word和Excel等应用。
  • GPT-5在长文本处理和多模态能力上有显著提升,但仍存在一些问题。
  • 马斯克质疑GPT-5的表现,认为其不如Grok 4。
  • GPT-5在SimpleBench上超过人类平均水平,表现出色。
  • GPT-5的Pro版本解决了大模型被表象迷惑的问题,成功识破修改版的“外科医生谜语”。
  • 尽管GPT-5在多个榜单中排名第一,但在单独对战中表现不如Gemini-2.5-Pro。
  • GPT-5在多模态数数场景中存在惯性思维的问题。
  • 发布会中出现的“52>69”图表引发网友调侃和吐槽。

延伸问答

GPT-5在魔方任务中的表现如何?

GPT-5成功生成、打乱和复原任意阶数的魔方,表现出色。

马斯克对GPT-5的看法是什么?

马斯克认为GPT-5的表现不如Grok 4,并对此表示质疑。

GPT-5在长文本处理方面有哪些提升?

GPT-5在长文本处理能力上有显著提升,相比于之前的版本表现更好。

GPT-5的Pro版本解决了哪些问题?

GPT-5的Pro版本部分解决了大模型被表象迷惑的问题,成功识破了修改版的“外科医生谜语”。

GPT-5在多模态能力方面表现如何?

GPT-5在多模态能力上有显著提升,但在数数场景中仍存在惯性思维的问题。

GPT-5在用户投票中的表现如何?

在用户自行投票的大模型竞技场上,GPT-5获得了总分和各个单项的第一名。

➡️

继续阅读