GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

在SWE-BENCH PRO测试中,GPT-5表面解决率为23.3%,但实际提交任务准确率达到63.1%,明显高于Claude Opus 4.1的31%。新测试集难度较大,反映了模型在真实商业场景中的局限性。

🎯

关键要点

  • 在SWE-BENCH PRO测试中,GPT-5表面解决率为23.3%,但实际提交任务准确率达到63.1%。
  • GPT-5的准确率明显高于Claude Opus 4.1的31%。
  • 新测试集SWE-BENCH PRO的难度较大,反映了模型在真实商业场景中的局限性。
  • SWE-BENCH PRO测试集的设计旨在避免数据污染,确保模型未接触过测试内容。
  • 测试集包含1865个商业应用、B2B服务和开发者工具的多元化代码库。
  • 测试过程采用了human in the loop的方法,确保问题的准确性和复杂性。
  • 实验结果显示,当前模型在解决真实商业场景中的问题能力有限。
  • 不同编程语言和代码库对模型表现有显著影响,Go和Python表现较好。
  • 不同模型的失败原因各异,GPT-5在工具使用有效性上可能存在差异。
  • 研究者对模型表现的分析指出,编程语言的难度和代码库是关键因素。

延伸问答

GPT-5在SWE-BENCH PRO测试中的表现如何?

GPT-5在SWE-BENCH PRO测试中的表面解决率为23.3%,但实际提交任务的准确率达到63.1%。

SWE-BENCH PRO测试集的设计目的是什么?

SWE-BENCH PRO测试集旨在避免数据污染,确保模型未接触过测试内容,从而更真实地考验模型的实际能力。

GPT-5与Claude Opus 4.1的表现差异是什么?

GPT-5的实际提交任务准确率为63.1%,明显高于Claude Opus 4.1的31%。

SWE-BENCH PRO测试集包含哪些类型的问题?

测试集包含1865个商业应用、B2B服务和开发者工具的多元化代码库,分为公共集、商业集和保留集。

影响模型表现的关键因素有哪些?

编程语言的难度、代码库以及模型的种类被视为影响模型表现的关键因素。

GPT-5在解决真实商业场景中的能力如何?

实验结果显示,当前模型在解决真实商业场景中的问题能力有限,尤其是在商业集上得分低于20%。

➡️

继续阅读