💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。与SWE-Bench相比,Claude Haiku 4.5和Sonnet 4.5的分数显著下降,表明CursorBench更能反映真实开发场景。评测结合线上线下,任务真实且规模大,评分机制合理,结果与用户体验一致。
🎯
关键要点
- Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。
- Claude Haiku 4.5和Sonnet 4.5在CursorBench上的分数显著下降,显示出CursorBench更能反映真实开发场景。
- CursorBench结合线上线下评测,任务真实且规模大,评分机制合理。
- 现有的公开基准存在任务类型不真实、评分机制不合理和数据污染等问题。
- CursorBench采用线上+线下混合评的方式,评估模型的正确性、代码质量、效率和交互行为。
- CursorBench的任务来源于真实开发场景,任务规模大且描述保持模糊。
- 线上评测通过A/B测试观察用户使用效果,形成线下和线上评测的良性循环。
- CursorBench在前沿模型之间的区分度明显更高,排名与真实用户体验一致。
- Cursor计划开发下一代评测套件,聚焦于运行时间更长的智能体。
➡️