量子位 ·

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

Cursor发布了新的AI编程评测基准CursorBench，评估不同模型的智能体表现。与SWE-Bench相比，Claude Haiku 4.5和Sonnet 4.5的分数显著下降，表明CursorBench更能反映真实开发场景。评测结合线上线下，任务真实且规模大，评分机制合理，结果与用户体验一致。

🎯

关键要点

Cursor发布了新的AI编程评测基准CursorBench，评估不同模型的智能体表现。
Claude Haiku 4.5和Sonnet 4.5在CursorBench上的分数显著下降，显示出CursorBench更能反映真实开发场景。
CursorBench结合线上线下评测，任务真实且规模大，评分机制合理。
现有的公开基准存在任务类型不真实、评分机制不合理和数据污染等问题。
CursorBench采用线上+线下混合评的方式，评估模型的正确性、代码质量、效率和交互行为。
CursorBench的任务来源于真实开发场景，任务规模大且描述保持模糊。
线上评测通过A/B测试观察用户使用效果，形成线下和线上评测的良性循环。
CursorBench在前沿模型之间的区分度明显更高，排名与真实用户体验一致。
Cursor计划开发下一代评测套件，聚焦于运行时间更长的智能体。

❓

延伸问答

CursorBench与SWE-Bench有什么主要区别？

CursorBench更能反映真实开发场景，任务类型和评分机制更合理，且结合了线上线下评测。

CursorBench是如何评估AI编程模型的？

CursorBench采用线上+线下混合评的方式，从正确性、代码质量、效率和交互行为等维度进行打分。

Claude Haiku 4.5在CursorBench上的表现如何？

Claude Haiku 4.5的分数从73.3降至29.4，表现显著下降。

CursorBench的任务来源是什么？

CursorBench的任务来源于真实开发场景，主要基于Cursor平台的用户请求和提交的代码。

CursorBench如何解决数据污染问题？

CursorBench通过设计真实的任务和评分机制，避免了模型直接抓取基准数据进行训练，从而减少数据污染。

Cursor未来的评测计划是什么？

Cursor计划开发下一代评测套件，聚焦于运行时间更长的智能体。

🏷️

继续阅读

零成本运行agent：三个免费AI大模型供应商实测推荐
本文推荐了三个适合运行AI智能体的免费AI大模型供应商：Google AI Studio每日提供1500次请求，OpenRouter通过10美元押金解锁每...
与Claude Code一起构建：新课程启动
新课程“与Claude Code一起构建”将于2026年5月28日至29日举行，由John Kim教授主讲，旨在教授Claude Code的实际应用。课程...
如何利用 Claude Code 构建软件工厂：从氛围编码到自主开发
AI 编程工具不仅提供自动补全功能，还能分析代码库、编辑多个文件、执行命令、解释错误、生成测试、编写文档和准备拉取请求摘要。尽管在小任务中表现良好，但在开...
微软取消Claude Code内部授权！优步四个月花光一年预算
微软因AI使用成本激增，取消了内部Claude Code授权，优步在四个月内耗尽全年AI预算。企业面临AI费用上涨，需选择缩减使用或承担亏损。开源模型成为...
MySQL 9.7.0 PGO基准分析
本文讨论了MySQL的Profile-Guided Optimization（PGO）技术，强调其在性能上的显著提升。PGO通过运行时分析优化代码，使CP...
小米17Max评测:苹果都放弃的大屏手机，小米为什么还要做?
小米17 Max是一款大屏手机，配备6.9英寸屏幕和8000mAh电池，续航表现优秀。其影像配置包括2亿像素主摄和潜望长焦，适合日常拍摄。尽管价格较高，但...