内容提要
Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。与SWE-Bench相比,Claude Haiku 4.5和Sonnet 4.5的分数显著下降,表明CursorBench更能反映真实开发场景。评测结合线上线下,任务真实且规模大,评分机制合理,结果与用户体验一致。
关键要点
-
Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。
-
Claude Haiku 4.5和Sonnet 4.5在CursorBench上的分数显著下降,显示出CursorBench更能反映真实开发场景。
-
CursorBench结合线上线下评测,任务真实且规模大,评分机制合理。
-
现有的公开基准存在任务类型不真实、评分机制不合理和数据污染等问题。
-
CursorBench采用线上+线下混合评的方式,评估模型的正确性、代码质量、效率和交互行为。
-
CursorBench的任务来源于真实开发场景,任务规模大且描述保持模糊。
-
线上评测通过A/B测试观察用户使用效果,形成线下和线上评测的良性循环。
-
CursorBench在前沿模型之间的区分度明显更高,排名与真实用户体验一致。
-
Cursor计划开发下一代评测套件,聚焦于运行时间更长的智能体。
延伸问答
CursorBench与SWE-Bench有什么主要区别?
CursorBench更能反映真实开发场景,任务类型和评分机制更合理,且结合了线上线下评测。
CursorBench是如何评估AI编程模型的?
CursorBench采用线上+线下混合评的方式,从正确性、代码质量、效率和交互行为等维度进行打分。
Claude Haiku 4.5在CursorBench上的表现如何?
Claude Haiku 4.5的分数从73.3降至29.4,表现显著下降。
CursorBench的任务来源是什么?
CursorBench的任务来源于真实开发场景,主要基于Cursor平台的用户请求和提交的代码。
CursorBench如何解决数据污染问题?
CursorBench通过设计真实的任务和评分机制,避免了模型直接抓取基准数据进行训练,从而减少数据污染。
Cursor未来的评测计划是什么?
Cursor计划开发下一代评测套件,聚焦于运行时间更长的智能体。