量子位 ·

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

Cursor发布了新的AI编程评测基准CursorBench，评估不同模型的智能体表现。与SWE-Bench相比，Claude Haiku 4.5和Sonnet 4.5的分数显著下降，表明CursorBench更能反映真实开发场景。评测结合线上线下，任务真实且规模大，评分机制合理，结果与用户体验一致。

🎯

关键要点

Cursor发布了新的AI编程评测基准CursorBench，评估不同模型的智能体表现。
Claude Haiku 4.5和Sonnet 4.5在CursorBench上的分数显著下降，显示出CursorBench更能反映真实开发场景。
CursorBench结合线上线下评测，任务真实且规模大，评分机制合理。
现有的公开基准存在任务类型不真实、评分机制不合理和数据污染等问题。
CursorBench采用线上+线下混合评的方式，评估模型的正确性、代码质量、效率和交互行为。
CursorBench的任务来源于真实开发场景，任务规模大且描述保持模糊。
线上评测通过A/B测试观察用户使用效果，形成线下和线上评测的良性循环。
CursorBench在前沿模型之间的区分度明显更高，排名与真实用户体验一致。
Cursor计划开发下一代评测套件，聚焦于运行时间更长的智能体。

🏷️

继续阅读

量子位专访陶哲轩：我为什么现在创办一个AI x Science组织
数学家陶哲轩创立SAIR基金会，旨在促进AI与科学的结合，推动科研普惠化。他强调AI在科研中的可信度和可解释性，倡导跨学科合作，培养年轻科学家。AI将改变...
Ashutosh Bapat: Professional karma
In the very early days of my career, an incident made me realise that perfomi...
龙虾版支付宝来了！睡觉都在帮你抢红包
FluxA推出的“龙虾钱包”赋予AI Agent支付能力，能够自主进行红包抢夺和活动参与，解决了AI支付的安全与授权问题，推动了Agent经济的发展。
fork subgen实现纯本地AI视频字幕生成和翻译
在 GPU 机器上将 NAS 外接硬盘映射为相同盘符，配置 Jellyfin 与 Subgen 实现互通，并自动触发媒体事件。
数学提炼挑战 – 方程理论
数学研究通常由专业数学家解决复杂问题，但与广泛的数学爱好者合作解决简单问题也有效。2024年，我启动了方程理论项目（ETP），结合严谨的形式化与人工智能，...
一个集记账、基金、股票于一体的APP
一年前，我在使用Vibe-Coding的拼图工具时还会选择熟悉的编程语言。如今，在开发财务管家APP时，我完全信任AI选择编程语言和框架，输出的代码不再查...

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

内容提要

关键要点

标签

继续阅读