我们为何不再评估SWE-bench Verified

我们为何不再评估SWE-bench Verified

💡 原文英文,约2900词,阅读约需11分钟。
📝

内容提要

自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而,分析显示其测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数,并开发新的评估方法。

🎯

关键要点

  • 自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。
  • 分析显示SWE-bench Verified的测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。
  • OpenAI建议停止报告SWE-bench Verified分数,并开发新的评估方法。
  • SWE-bench Verified的测试拒绝正确解决方案,59.4%的审核问题存在缺陷测试用例。
  • 大型前沿模型在训练时可能接触到评估问题和解决方案,导致评估结果不准确。
  • SWE-bench Verified的改进不再反映模型在实际软件开发能力上的真实提升。
  • OpenAI正在构建新的、未受污染的评估方法,以更好地跟踪编码能力。
  • SWE-bench的原始评估在2023年发布,存在许多问题导致模型能力被低估。
  • SWE-bench Verified虽然改进了初始版本,但仍存在残留问题,59.4%的审核问题存在测试设计或问题描述的重大问题。
  • 从公共材料中获取的基准存在污染风险,模型开发者应进行额外的污染测试。
  • 自动评分难以做到完美,测试用例应全面验证正确功能,避免特定实现细节的依赖。
  • OpenAI建议其他模型开发者报告SWE-bench Pro的结果,因其污染问题较少。
  • OpenAI将继续投资于原创的、私下撰写的基准,以减少曝光风险。

延伸问答

SWE-bench Verified的主要问题是什么?

SWE-bench Verified的主要问题是其测试存在缺陷,导致59.4%的审核问题拒绝正确解决方案,无法真实反映模型的开发能力。

OpenAI对SWE-bench Verified的建议是什么?

OpenAI建议停止报告SWE-bench Verified的分数,并开发新的评估方法以更好地跟踪编码能力。

为什么SWE-bench Verified的改进不再反映真实能力?

因为大型模型在训练时可能接触到评估问题和解决方案,导致评估结果受到污染,无法准确反映模型的真实开发能力。

SWE-bench Verified的测试设计存在哪些具体问题?

测试设计存在过于狭窄和过于宽泛的问题,导致许多功能正确的提交被拒绝,或测试未能覆盖所有相关功能。

如何避免模型开发中的污染风险?

模型开发者应进行额外的污染测试,并在使用公开材料时采取额外的保护措施,如密码保护数据集。

SWE-bench Pro与SWE-bench Verified有什么不同?

SWE-bench Pro相较于SWE-bench Verified在污染问题上较少,OpenAI推荐其他模型开发者报告SWE-bench Pro的结果。

➡️

继续阅读