内容提要
自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而,分析显示其测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数,并开发新的评估方法。
关键要点
-
自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。
-
分析显示SWE-bench Verified的测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。
-
OpenAI建议停止报告SWE-bench Verified分数,并开发新的评估方法。
-
SWE-bench Verified的测试拒绝正确解决方案,59.4%的审核问题存在缺陷测试用例。
-
大型前沿模型在训练时可能接触到评估问题和解决方案,导致评估结果不准确。
-
SWE-bench Verified的改进不再反映模型在实际软件开发能力上的真实提升。
-
OpenAI正在构建新的、未受污染的评估方法,以更好地跟踪编码能力。
-
SWE-bench的原始评估在2023年发布,存在许多问题导致模型能力被低估。
-
SWE-bench Verified虽然改进了初始版本,但仍存在残留问题,59.4%的审核问题存在测试设计或问题描述的重大问题。
-
从公共材料中获取的基准存在污染风险,模型开发者应进行额外的污染测试。
-
自动评分难以做到完美,测试用例应全面验证正确功能,避免特定实现细节的依赖。
-
OpenAI建议其他模型开发者报告SWE-bench Pro的结果,因其污染问题较少。
-
OpenAI将继续投资于原创的、私下撰写的基准,以减少曝光风险。
延伸解读
评估方法的局限性
SWE-bench Verified的评估方法存在显著缺陷,导致模型能力的提升未能真实反映实际开发能力。59.4%的审核问题显示测试用例设计不当,可能会拒绝正确的解决方案。这意味着依赖该基准进行能力评估可能会导致误导性结果,开发者需谨慎解读分数。
污染风险的影响
由于SWE-bench Verified的测试问题源自公共材料,模型开发者面临污染风险。模型在训练过程中可能接触到评估问题和解决方案,导致评估结果不准确。因此,开发者应进行额外的污染测试,以确保评估的有效性和可靠性。
未来评估的方向
OpenAI正在开发新的、未受污染的评估方法,以更好地跟踪编码能力。这一方向不仅对OpenAI自身重要,也对整个研究社区具有指导意义。开发者应关注这些新方法的进展,以便在未来的模型评估中采用更可靠的标准。
延伸问答
SWE-bench Verified的主要问题是什么?
SWE-bench Verified的主要问题是其测试存在缺陷,导致59.4%的审核问题拒绝正确解决方案,无法真实反映模型的开发能力。
OpenAI对SWE-bench Verified的建议是什么?
OpenAI建议停止报告SWE-bench Verified的分数,并开发新的评估方法以更好地跟踪编码能力。
为什么SWE-bench Verified的改进不再反映真实能力?
因为大型模型在训练时可能接触到评估问题和解决方案,导致评估结果受到污染,无法准确反映模型的真实开发能力。
SWE-bench Verified的测试设计存在哪些具体问题?
测试设计存在过于狭窄和过于宽泛的问题,导致许多功能正确的提交被拒绝,或测试未能覆盖所有相关功能。
如何避免模型开发中的污染风险?
模型开发者应进行额外的污染测试,并在使用公开材料时采取额外的保护措施,如密码保护数据集。
SWE-bench Pro与SWE-bench Verified有什么不同?
SWE-bench Pro相较于SWE-bench Verified在污染问题上较少,OpenAI推荐其他模型开发者报告SWE-bench Pro的结果。