💡 原文中文,约2800字,阅读约需7分钟。
📝

内容提要

Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。与SWE-Bench相比,Claude Haiku 4.5和Sonnet 4.5的分数显著下降,表明CursorBench更能反映真实开发场景。评测结合线上线下,任务真实且规模大,评分机制合理,结果与用户体验一致。

🎯

关键要点

  • Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。
  • Claude Haiku 4.5和Sonnet 4.5在CursorBench上的分数显著下降,显示出CursorBench更能反映真实开发场景。
  • CursorBench结合线上线下评测,任务真实且规模大,评分机制合理。
  • 现有的公开基准存在任务类型不真实、评分机制不合理和数据污染等问题。
  • CursorBench采用线上+线下混合评的方式,评估模型的正确性、代码质量、效率和交互行为。
  • CursorBench的任务来源于真实开发场景,任务规模大且描述保持模糊。
  • 线上评测通过A/B测试观察用户使用效果,形成线下和线上评测的良性循环。
  • CursorBench在前沿模型之间的区分度明显更高,排名与真实用户体验一致。
  • Cursor计划开发下一代评测套件,聚焦于运行时间更长的智能体。
➡️

继续阅读