快来看看GPT-5第一波实测
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
GPT-5发布后引发热议,Youtuber Berman展示其在魔方、网页Word、Excel等任务中的表现。尽管表现出色,但也遭到质疑,尤其是马斯克认为其不如Grok 4。GPT-5在多模态能力和长文本处理上有显著提升,但仍存在一些问题。
🎯
关键要点
- GPT-5发布引发热议,Youtuber Berman展示其在魔方、网页Word、Excel等任务中的表现。
- Berman利用GPT-5成功生成魔方、复刻网页版Word和Excel等应用。
- GPT-5在长文本处理和多模态能力上有显著提升,但仍存在一些问题。
- 马斯克质疑GPT-5的表现,认为其不如Grok 4。
- GPT-5在SimpleBench上超过人类平均水平,表现出色。
- GPT-5的Pro版本解决了大模型被表象迷惑的问题,成功识破修改版的“外科医生谜语”。
- 尽管GPT-5在多个榜单中排名第一,但在单独对战中表现不如Gemini-2.5-Pro。
- GPT-5在多模态数数场景中存在惯性思维的问题。
- 发布会中出现的“52>69”图表引发网友调侃和吐槽。
❓
延伸问答
GPT-5在魔方任务中的表现如何?
GPT-5成功生成、打乱和复原任意阶数的魔方,表现出色。
马斯克对GPT-5的看法是什么?
马斯克认为GPT-5的表现不如Grok 4,并对此表示质疑。
GPT-5在长文本处理方面有哪些提升?
GPT-5在长文本处理能力上有显著提升,相比于之前的版本表现更好。
GPT-5的Pro版本解决了哪些问题?
GPT-5的Pro版本部分解决了大模型被表象迷惑的问题,成功识破了修改版的“外科医生谜语”。
GPT-5在多模态能力方面表现如何?
GPT-5在多模态能力上有显著提升,但在数数场景中仍存在惯性思维的问题。
GPT-5在用户投票中的表现如何?
在用户自行投票的大模型竞技场上,GPT-5获得了总分和各个单项的第一名。
➡️