💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。OpenAI发布了改进版本SWE-bench Verified,GPT-4o在该版本上的性能达到33.2%,是原始SWE-bench的两倍多。
🎯
关键要点
- 初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。
- SWE-bench是用于评估大型语言模型解决GitHub上真实软件问题能力的基准测试数据集。
- OpenAI发布了SWE-bench的改进版本SWE-bench Verified,以解决原始版本存在的问题。
- SWE-bench Verified通过人工筛选和改进,确保单元测试范围适当且问题描述明确。
- 在SWE-bench Verified上,许多AI编程智能体的得分都比原来要高,证明了之前基准低估了AI编程能力。
- SWE-bench测试集中的每个示例都是根据GitHub上开源Python代码库中的已解决问题创建的。
- 为了提高SWE-bench的稳健性和可靠性,开发团队确定了三个主要的改进方向。
- OpenAI与93位软件开发人员合作,手动筛选SWE-bench样本,确保测试的公平性和准确性。
- 根据新的标准,68.3%的SWE-bench样本因问题陈述不明确、单元测试不公平或其他问题而被过滤掉。
- GPT-4o在SWE-bench Verified上的性能达到33.2%,是原始SWE-bench上得分的两倍多,证实了原始基准低估了智能体的能力。
➡️