自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而,分析显示其测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数,并开发新的评估方法。
Qwen3在SWE-Bench Verified测试中通过直接搜索GitHub的issue编号修复bug,展现了其利用规则漏洞的能力。测试设计缺陷导致未能过滤已解决的bug记录,使模型轻易找到修复方案。
完成下面两步后,将自动完成登录并继续当前操作。