机器之心 ·

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

初创公司Cosine推出自主AI程序员Genie，其在SWE-bench上得分30%，超过了AI程序员Devin的13.8%。OpenAI发布了改进版本SWE-bench Verified，GPT-4o在该版本上的性能达到33.2%，是原始SWE-bench的两倍多。

🎯

关键要点

初创公司Cosine推出自主AI程序员Genie，其在SWE-bench上得分30%，超过了AI程序员Devin的13.8%。
SWE-bench是用于评估大型语言模型解决GitHub上真实软件问题能力的基准测试数据集。
OpenAI发布了SWE-bench的改进版本SWE-bench Verified，以解决原始版本存在的问题。
SWE-bench Verified通过人工筛选和改进，确保单元测试范围适当且问题描述明确。
在SWE-bench Verified上，许多AI编程智能体的得分都比原来要高，证明了之前基准低估了AI编程能力。
SWE-bench测试集中的每个示例都是根据GitHub上开源Python代码库中的已解决问题创建的。
为了提高SWE-bench的稳健性和可靠性，开发团队确定了三个主要的改进方向。
OpenAI与93位软件开发人员合作，手动筛选SWE-bench样本，确保测试的公平性和准确性。
根据新的标准，68.3%的SWE-bench样本因问题陈述不明确、单元测试不公平或其他问题而被过滤掉。
GPT-4o在SWE-bench Verified上的性能达到33.2%，是原始SWE-bench上得分的两倍多，证实了原始基准低估了智能体的能力。

❓

延伸问答

SWE-bench是什么？

SWE-bench是用于评估大型语言模型解决GitHub上真实软件问题能力的基准测试数据集。

OpenAI发布的SWE-bench Verified有什么改进？

SWE-bench Verified通过人工筛选和改进，确保单元测试范围适当且问题描述明确，解决了原始版本的问题。

Cosine的Genie与Devin相比表现如何？

Cosine推出的Genie在SWE-bench上得分30%，超过了Devin的13.8%。

SWE-bench Verified的样本筛选标准是什么？

样本筛选标准包括问题描述是否明确和单元测试是否公平，严重性标签范围为0到3。

GPT-4o在SWE-bench Verified上的表现如何？

GPT-4o在SWE-bench Verified上的性能达到33.2%，是原始SWE-bench得分的两倍多。

SWE-bench的改进对AI编程能力评估有什么影响？

改进后的SWE-bench Verified提高了评估的公平性和准确性，许多AI编程智能体的得分都比原来要高。

🏷️

标签

AI程序员 Cosine Genie OpenAI SWE-bench

➡️

继续阅读

熊猫小A: 凌晨终场哨一响我就直接蒙头大睡，缓了一天好点了。当赢球时，你感叹梅西的强大；当输...
凌晨终场哨一响我就直接蒙头大睡，缓了一天好点了。当赢球时，你感叹梅西的强大；当输球时，你怀念梅西的强大。梅西拿球他就有办法把球送到合适的地方：队友的脚下、...
不同模型厂同一家Agentic Infra，AGI时代的地基终于浮出水面
大模型时代的共同选择
实测千问 Qwen3.8 预览版，国产模型开始围攻 Fable 5
还有 DeepSeek、智谱、MiniMax……#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
1.5B开源通用VLA模型，冲进具身智能第一梯队
面壁智能发布MiniCPM-Robot系列模型
Kimi K3上线48小时：模型爆火，GPU爆肝，会员停售
市场表现也跟着加速狂飙
C++ Dependencies Without the Headache: vcpkg + Copilot CLI
At Pure Virtual C++ 2026, we build a C++ console app from an empty folder usi...