我们为何不再评估SWE-bench Verified

我们为何不再评估SWE-bench Verified

💡 原文英文,约2900词,阅读约需11分钟。
📝

内容提要

自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而,分析显示其测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数,并开发新的评估方法。

🎯

关键要点

  • 自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。

  • 分析显示SWE-bench Verified的测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。

  • OpenAI建议停止报告SWE-bench Verified分数,并开发新的评估方法。

  • SWE-bench Verified的测试拒绝正确解决方案,59.4%的审核问题存在缺陷测试用例。

  • 大型前沿模型在训练时可能接触到评估问题和解决方案,导致评估结果不准确。

  • SWE-bench Verified的改进不再反映模型在实际软件开发能力上的真实提升。

  • OpenAI正在构建新的、未受污染的评估方法,以更好地跟踪编码能力。

  • SWE-bench的原始评估在2023年发布,存在许多问题导致模型能力被低估。

  • SWE-bench Verified虽然改进了初始版本,但仍存在残留问题,59.4%的审核问题存在测试设计或问题描述的重大问题。

  • 从公共材料中获取的基准存在污染风险,模型开发者应进行额外的污染测试。

  • 自动评分难以做到完美,测试用例应全面验证正确功能,避免特定实现细节的依赖。

  • OpenAI建议其他模型开发者报告SWE-bench Pro的结果,因其污染问题较少。

  • OpenAI将继续投资于原创的、私下撰写的基准,以减少曝光风险。

🔎

延伸解读

评估方法的局限性

SWE-bench Verified的评估方法存在显著缺陷,导致模型能力的提升未能真实反映实际开发能力。59.4%的审核问题显示测试用例设计不当,可能会拒绝正确的解决方案。这意味着依赖该基准进行能力评估可能会导致误导性结果,开发者需谨慎解读分数。

污染风险的影响

由于SWE-bench Verified的测试问题源自公共材料,模型开发者面临污染风险。模型在训练过程中可能接触到评估问题和解决方案,导致评估结果不准确。因此,开发者应进行额外的污染测试,以确保评估的有效性和可靠性。

未来评估的方向

OpenAI正在开发新的、未受污染的评估方法,以更好地跟踪编码能力。这一方向不仅对OpenAI自身重要,也对整个研究社区具有指导意义。开发者应关注这些新方法的进展,以便在未来的模型评估中采用更可靠的标准。

延伸问答

SWE-bench Verified的主要问题是什么?

SWE-bench Verified的主要问题是其测试存在缺陷,导致59.4%的审核问题拒绝正确解决方案,无法真实反映模型的开发能力。

OpenAI对SWE-bench Verified的建议是什么?

OpenAI建议停止报告SWE-bench Verified的分数,并开发新的评估方法以更好地跟踪编码能力。

为什么SWE-bench Verified的改进不再反映真实能力?

因为大型模型在训练时可能接触到评估问题和解决方案,导致评估结果受到污染,无法准确反映模型的真实开发能力。

SWE-bench Verified的测试设计存在哪些具体问题?

测试设计存在过于狭窄和过于宽泛的问题,导致许多功能正确的提交被拒绝,或测试未能覆盖所有相关功能。

如何避免模型开发中的污染风险?

模型开发者应进行额外的污染测试,并在使用公开材料时采取额外的保护措施,如密码保护数据集。

SWE-bench Pro与SWE-bench Verified有什么不同?

SWE-bench Pro相较于SWE-bench Verified在污染问题上较少,OpenAI推荐其他模型开发者报告SWE-bench Pro的结果。

🏷️

标签

➡️

继续阅读