拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。与SWE-Bench相比,Claude Haiku 4.5和Sonnet 4.5的分数显著下降,表明CursorBench更能反映真实开发场景。评测结合线上线下,任务真实且规模大,评分机制合理,结果与用户体验一致。

🎯

关键要点

  • Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。

  • Claude Haiku 4.5和Sonnet 4.5在CursorBench上的分数显著下降,显示出CursorBench更能反映真实开发场景。

  • CursorBench结合线上线下评测,任务真实且规模大,评分机制合理。

  • 现有的公开基准存在任务类型不真实、评分机制不合理和数据污染等问题。

  • CursorBench采用线上+线下混合评的方式,评估模型的正确性、代码质量、效率和交互行为。

  • CursorBench的任务来源于真实开发场景,任务规模大且描述保持模糊。

  • 线上评测通过A/B测试观察用户使用效果,形成线下和线上评测的良性循环。

  • CursorBench在前沿模型之间的区分度明显更高,排名与真实用户体验一致。

  • Cursor计划开发下一代评测套件,聚焦于运行时间更长的智能体。

延伸问答

CursorBench与SWE-Bench有什么主要区别?

CursorBench更能反映真实开发场景,任务类型和评分机制更合理,且结合了线上线下评测。

CursorBench是如何评估AI编程模型的?

CursorBench采用线上+线下混合评的方式,从正确性、代码质量、效率和交互行为等维度进行打分。

Claude Haiku 4.5在CursorBench上的表现如何?

Claude Haiku 4.5的分数从73.3降至29.4,表现显著下降。

CursorBench的任务来源是什么?

CursorBench的任务来源于真实开发场景,主要基于Cursor平台的用户请求和提交的代码。

CursorBench如何解决数据污染问题?

CursorBench通过设计真实的任务和评分机制,避免了模型直接抓取基准数据进行训练,从而减少数据污染。

Cursor未来的评测计划是什么?

Cursor计划开发下一代评测套件,聚焦于运行时间更长的智能体。

➡️

继续阅读