OpenAI ·

我们为何不再评估SWE-bench Verified

💡 原文英文，约2900词，阅读约需11分钟。

📝

内容提要

自2024年发布以来，SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而，分析显示其测试存在缺陷，导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数，并开发新的评估方法。

🎯

❓

SWE-bench Verified的主要问题是其测试存在缺陷，导致59.4%的审核问题拒绝正确解决方案，无法真实反映模型的开发能力。

OpenAI建议停止报告SWE-bench Verified的分数，并开发新的评估方法以更好地跟踪编码能力。

因为大型模型在训练时可能接触到评估问题和解决方案，导致评估结果受到污染，无法准确反映模型的真实开发能力。

测试设计存在过于狭窄和过于宽泛的问题，导致许多功能正确的提交被拒绝，或测试未能覆盖所有相关功能。

模型开发者应进行额外的污染测试，并在使用公开材料时采取额外的保护措施，如密码保护数据集。

SWE-bench Pro相较于SWE-bench Verified在污染问题上较少，OpenAI推荐其他模型开发者报告SWE-bench Pro的结果。

🏷️

埃隆·马斯克与山姆·阿尔特曼关于OpenAI未来的法律斗争
埃隆·马斯克与山姆·阿尔特曼之间的法律斗争即将开始，涉及OpenAI的未来。马斯克指控OpenAI偏离了最初使命，追求利润，并要求解除阿尔特曼和布罗克曼的...
AWS与OpenAI在Bedrock上合作，但Trainium才是真正的焦点
AWS宣布与OpenAI和Anthropic达成长期合作，推出新产品Bedrock，整合GPT-5和Codex，提升云端AI推理能力。两家公司将使用AWS...
Tumbler Ridge家庭起诉OpenAI，指控其未向警方通报嫌疑人使用ChatGPT的活动
七个在加拿大Tumbler Ridge学校枪击事件中受害的家庭起诉OpenAI及其首席执行官Sam Altman，指控其未能向警方报告嫌疑人使用ChatG...
ChatGPT下载量放缓——这可能会给OpenAI的IPO带来问题
ChatGPT的用户增长放缓，尤其是与竞争对手Claude相比。根据Sensor Tower的数据，ChatGPT在4月的卸载率同比增长413%。尽管用户...
拉里的冒险生意
甲骨文公司与OpenAI达成3000亿美元的合作协议，计划建设大型数据中心，全面押注人工智能。尽管面临市场不确定性和OpenAI财务状况不佳的风险，甲骨文...
ChatGPT 拎包入住云计算一哥，你的下一任好同事可能是 AI
亚马逊云科技发布会强调AI Agent将重塑SaaS行业。新产品Amazon Quick通过整合信息提高工作效率，减少员工在多个系统间的切换。亚马逊与Op...