OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。OpenAI发布了改进版本SWE-bench Verified,GPT-4o在该版本上的性能达到33.2%,是原始SWE-bench的两倍多。

🎯

关键要点

  • 初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。

  • SWE-bench是用于评估大型语言模型解决GitHub上真实软件问题能力的基准测试数据集。

  • OpenAI发布了SWE-bench的改进版本SWE-bench Verified,以解决原始版本存在的问题。

  • SWE-bench Verified通过人工筛选和改进,确保单元测试范围适当且问题描述明确。

  • 在SWE-bench Verified上,许多AI编程智能体的得分都比原来要高,证明了之前基准低估了AI编程能力。

  • SWE-bench测试集中的每个示例都是根据GitHub上开源Python代码库中的已解决问题创建的。

  • 为了提高SWE-bench的稳健性和可靠性,开发团队确定了三个主要的改进方向。

  • OpenAI与93位软件开发人员合作,手动筛选SWE-bench样本,确保测试的公平性和准确性。

  • 根据新的标准,68.3%的SWE-bench样本因问题陈述不明确、单元测试不公平或其他问题而被过滤掉。

  • GPT-4o在SWE-bench Verified上的性能达到33.2%,是原始SWE-bench上得分的两倍多,证实了原始基准低估了智能体的能力。

延伸问答

SWE-bench是什么?

SWE-bench是用于评估大型语言模型解决GitHub上真实软件问题能力的基准测试数据集。

OpenAI发布的SWE-bench Verified有什么改进?

SWE-bench Verified通过人工筛选和改进,确保单元测试范围适当且问题描述明确,解决了原始版本的问题。

Cosine的Genie与Devin相比表现如何?

Cosine推出的Genie在SWE-bench上得分30%,超过了Devin的13.8%。

SWE-bench Verified的样本筛选标准是什么?

样本筛选标准包括问题描述是否明确和单元测试是否公平,严重性标签范围为0到3。

GPT-4o在SWE-bench Verified上的表现如何?

GPT-4o在SWE-bench Verified上的性能达到33.2%,是原始SWE-bench得分的两倍多。

SWE-bench的改进对AI编程能力评估有什么影响?

改进后的SWE-bench Verified提高了评估的公平性和准确性,许多AI编程智能体的得分都比原来要高。

➡️

继续阅读