💡
原文英文,约2900词,阅读约需11分钟。
📝
内容提要
自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而,分析显示其测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数,并开发新的评估方法。
🎯
关键要点
- 自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。
- 分析显示SWE-bench Verified的测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。
- OpenAI建议停止报告SWE-bench Verified分数,并开发新的评估方法。
- SWE-bench Verified的测试拒绝正确解决方案,59.4%的审核问题存在缺陷测试用例。
- 大型前沿模型在训练时可能接触到评估问题和解决方案,导致评估结果不准确。
- SWE-bench Verified的改进不再反映模型在实际软件开发能力上的真实提升。
- OpenAI正在构建新的、未受污染的评估方法,以更好地跟踪编码能力。
- SWE-bench的原始评估在2023年发布,存在许多问题导致模型能力被低估。
- SWE-bench Verified虽然改进了初始版本,但仍存在残留问题,59.4%的审核问题存在测试设计或问题描述的重大问题。
- 从公共材料中获取的基准存在污染风险,模型开发者应进行额外的污染测试。
- 自动评分难以做到完美,测试用例应全面验证正确功能,避免特定实现细节的依赖。
- OpenAI建议其他模型开发者报告SWE-bench Pro的结果,因其污染问题较少。
- OpenAI将继续投资于原创的、私下撰写的基准,以减少曝光风险。
❓
延伸问答
SWE-bench Verified的主要问题是什么?
SWE-bench Verified的主要问题是其测试存在缺陷,导致59.4%的审核问题拒绝正确解决方案,无法真实反映模型的开发能力。
OpenAI对SWE-bench Verified的建议是什么?
OpenAI建议停止报告SWE-bench Verified的分数,并开发新的评估方法以更好地跟踪编码能力。
为什么SWE-bench Verified的改进不再反映真实能力?
因为大型模型在训练时可能接触到评估问题和解决方案,导致评估结果受到污染,无法准确反映模型的真实开发能力。
SWE-bench Verified的测试设计存在哪些具体问题?
测试设计存在过于狭窄和过于宽泛的问题,导致许多功能正确的提交被拒绝,或测试未能覆盖所有相关功能。
如何避免模型开发中的污染风险?
模型开发者应进行额外的污染测试,并在使用公开材料时采取额外的保护措施,如密码保护数据集。
SWE-bench Pro与SWE-bench Verified有什么不同?
SWE-bench Pro相较于SWE-bench Verified在污染问题上较少,OpenAI推荐其他模型开发者报告SWE-bench Pro的结果。
➡️