在SWE-BENCH PRO测试中,GPT-5表面解决率为23.3%,但实际提交任务准确率达到63.1%,明显高于Claude Opus 4.1的31%。新测试集难度较大,反映了模型在真实商业场景中的局限性。
完成下面两步后,将自动完成登录并继续当前操作。