量子位 ·

GPT-5编程测评大反转！表面不及格，实际63.1%的任务没交卷，全算上成绩比Claude高一倍

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

在SWE-BENCH PRO测试中，GPT-5表面解决率为23.3%，但实际提交任务准确率达到63.1%，明显高于Claude Opus 4.1的31%。新测试集难度较大，反映了模型在真实商业场景中的局限性。

🎯

关键要点

在SWE-BENCH PRO测试中，GPT-5表面解决率为23.3%，但实际提交任务准确率达到63.1%。
GPT-5的准确率明显高于Claude Opus 4.1的31%。
新测试集SWE-BENCH PRO的难度较大，反映了模型在真实商业场景中的局限性。
SWE-BENCH PRO测试集的设计旨在避免数据污染，确保模型未接触过测试内容。
测试集包含1865个商业应用、B2B服务和开发者工具的多元化代码库。
测试过程采用了human in the loop的方法，确保问题的准确性和复杂性。
实验结果显示，当前模型在解决真实商业场景中的问题能力有限。
不同编程语言和代码库对模型表现有显著影响，Go和Python表现较好。
不同模型的失败原因各异，GPT-5在工具使用有效性上可能存在差异。
研究者对模型表现的分析指出，编程语言的难度和代码库是关键因素。

❓

延伸问答

GPT-5在SWE-BENCH PRO测试中的表现如何？

GPT-5在SWE-BENCH PRO测试中的表面解决率为23.3%，但实际提交任务的准确率达到63.1%。

SWE-BENCH PRO测试集的设计目的是什么？

SWE-BENCH PRO测试集旨在避免数据污染，确保模型未接触过测试内容，从而更真实地考验模型的实际能力。

GPT-5与Claude Opus 4.1的表现差异是什么？

GPT-5的实际提交任务准确率为63.1%，明显高于Claude Opus 4.1的31%。

SWE-BENCH PRO测试集包含哪些类型的问题？

测试集包含1865个商业应用、B2B服务和开发者工具的多元化代码库，分为公共集、商业集和保留集。

影响模型表现的关键因素有哪些？

编程语言的难度、代码库以及模型的种类被视为影响模型表现的关键因素。

GPT-5在解决真实商业场景中的能力如何？

实验结果显示，当前模型在解决真实商业场景中的问题能力有限，尤其是在商业集上得分低于20%。

🏷️

继续阅读

h5i Radio – 利用 Git，让 Claude 和 Codex 进行实时对话
h5i 是一个开源工具，支持多个 AI Agent（如 Claude 和 Codex）通过 Git 协作。其 Agent Radio 功能利用 Git 仓...
使用本地大型语言模型进行自主编程
本文讨论了如何使用本地大型语言模型（LLM）进行编程，特别是在GitHub转向基于使用量计费后。作者分享了运行本地模型的步骤、配置代理的方法以及推荐的模型...
Superpowers 为什么能执行长任务且确保交付质量？
Superpowers通过明确需求沟通和任务拆分，优化了AI执行长任务的流程。采用头脑风暴、计划撰写和计划执行的步骤，确保高质量输出。子代理驱动开发模式使...
构建无服务器Kiro调度平台：用Kiro CLI + EventBridge + ECS Fargate实现定时AI任务
Kiro Job Scheduler是一个基于AWS无服务器架构的AI任务调度平台，允许用户通过Web界面配置定时AI任务。用户可以创建自定义Agent、...
一个GPT Plus会员的钱，够机器人跑一个月世界模型了
智在无界推出的Being-H-Flash隐式世界模型，月算力成本仅150元，能够在百TOPS级芯片上实现实时运行。该模型通过潜空间推理，降低了计算开销，提...
犹他州将Gemini教育工具引入全州K-12学校
谷歌与犹他州教育委员会合作，从2026-2027学年起，为全州K-12学校提供免费的Gemini教育AI工具和培训，惠及超过70.8万名学生和教师。该工具...