小红花·文摘

在SWE-BENCH PRO测试中，GPT-5表面解决率为23.3%，但实际提交任务准确率达到63.1%，明显高于Claude Opus 4.1的31%。新测试集难度较大，反映了模型在真实商业场景中的局限性。