内容提要
初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。OpenAI发布了改进版本SWE-bench Verified,GPT-4o在该版本上的性能达到33.2%,是原始SWE-bench的两倍多。
关键要点
-
初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。
-
SWE-bench是用于评估大型语言模型解决GitHub上真实软件问题能力的基准测试数据集。
-
OpenAI发布了SWE-bench的改进版本SWE-bench Verified,以解决原始版本存在的问题。
-
SWE-bench Verified通过人工筛选和改进,确保单元测试范围适当且问题描述明确。
-
在SWE-bench Verified上,许多AI编程智能体的得分都比原来要高,证明了之前基准低估了AI编程能力。
-
SWE-bench测试集中的每个示例都是根据GitHub上开源Python代码库中的已解决问题创建的。
-
为了提高SWE-bench的稳健性和可靠性,开发团队确定了三个主要的改进方向。
-
OpenAI与93位软件开发人员合作,手动筛选SWE-bench样本,确保测试的公平性和准确性。
-
根据新的标准,68.3%的SWE-bench样本因问题陈述不明确、单元测试不公平或其他问题而被过滤掉。
-
GPT-4o在SWE-bench Verified上的性能达到33.2%,是原始SWE-bench上得分的两倍多,证实了原始基准低估了智能体的能力。
延伸问答
SWE-bench是什么?
SWE-bench是用于评估大型语言模型解决GitHub上真实软件问题能力的基准测试数据集。
OpenAI发布的SWE-bench Verified有什么改进?
SWE-bench Verified通过人工筛选和改进,确保单元测试范围适当且问题描述明确,解决了原始版本的问题。
Cosine的Genie与Devin相比表现如何?
Cosine推出的Genie在SWE-bench上得分30%,超过了Devin的13.8%。
SWE-bench Verified的样本筛选标准是什么?
样本筛选标准包括问题描述是否明确和单元测试是否公平,严重性标签范围为0到3。
GPT-4o在SWE-bench Verified上的表现如何?
GPT-4o在SWE-bench Verified上的性能达到33.2%,是原始SWE-bench得分的两倍多。
SWE-bench的改进对AI编程能力评估有什么影响?
改进后的SWE-bench Verified提高了评估的公平性和准确性,许多AI编程智能体的得分都比原来要高。