GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
在SWE-BENCH PRO测试中,GPT-5表面解决率为23.3%,但实际提交任务准确率达到63.1%,明显高于Claude Opus 4.1的31%。新测试集难度较大,反映了模型在真实商业场景中的局限性。
🎯
关键要点
- 在SWE-BENCH PRO测试中,GPT-5表面解决率为23.3%,但实际提交任务准确率达到63.1%。
- GPT-5的准确率明显高于Claude Opus 4.1的31%。
- 新测试集SWE-BENCH PRO的难度较大,反映了模型在真实商业场景中的局限性。
- SWE-BENCH PRO测试集的设计旨在避免数据污染,确保模型未接触过测试内容。
- 测试集包含1865个商业应用、B2B服务和开发者工具的多元化代码库。
- 测试过程采用了human in the loop的方法,确保问题的准确性和复杂性。
- 实验结果显示,当前模型在解决真实商业场景中的问题能力有限。
- 不同编程语言和代码库对模型表现有显著影响,Go和Python表现较好。
- 不同模型的失败原因各异,GPT-5在工具使用有效性上可能存在差异。
- 研究者对模型表现的分析指出,编程语言的难度和代码库是关键因素。
❓
延伸问答
GPT-5在SWE-BENCH PRO测试中的表现如何?
GPT-5在SWE-BENCH PRO测试中的表面解决率为23.3%,但实际提交任务的准确率达到63.1%。
SWE-BENCH PRO测试集的设计目的是什么?
SWE-BENCH PRO测试集旨在避免数据污染,确保模型未接触过测试内容,从而更真实地考验模型的实际能力。
GPT-5与Claude Opus 4.1的表现差异是什么?
GPT-5的实际提交任务准确率为63.1%,明显高于Claude Opus 4.1的31%。
SWE-BENCH PRO测试集包含哪些类型的问题?
测试集包含1865个商业应用、B2B服务和开发者工具的多元化代码库,分为公共集、商业集和保留集。
影响模型表现的关键因素有哪些?
编程语言的难度、代码库以及模型的种类被视为影响模型表现的关键因素。
GPT-5在解决真实商业场景中的能力如何?
实验结果显示,当前模型在解决真实商业场景中的问题能力有限,尤其是在商业集上得分低于20%。
➡️