机器之心 ·

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

昨日，AI领域动态频繁。马斯克的xAI发布了Grok-3，DeepSeek推出新注意力架构NSA。OpenAI开源SWE-Lancer基准，评估AI大模型在真实软件工程任务中的表现，任务总价值达100万美元。研究表明，尽管前沿模型在某些编程问题上有所进展，但仍难以完全替代人类工程师。

🎯

关键要点

马斯克的xAI发布了Grok-3，DeepSeek推出新注意力架构NSA。
OpenAI开源SWE-Lancer基准，评估AI大模型在真实软件工程任务中的表现，任务总价值达100万美元。
SWE-Lancer包含1400多个自由软件工程任务，任务类型包括独立工程任务和管理任务。
SWE-Lancer任务更真实地反映现代软件工程的复杂性，平均需要21天以上完成。
OpenAI评估结果显示，前沿模型仍无法解决大多数任务，Claude 3.5 Sonnet表现最佳。
OpenAI希望通过SWE-Lancer将模型性能与现实世界的货币价值联系起来，促进相关研究。
SWE-Lancer数据集包含1488个软件工程任务，分为个人贡献者任务和管理任务。
研究表明，现实世界中的自由职业工作对前沿语言模型仍然是挑战，模型无法完全取代人类工程师。
实验结果显示，所有模型在管理任务上的表现优于独立工程任务，Claude 3.5 Sonnet表现最强。
模型在定位问题方面表现出色，但在解决根本原因方面存在缺陷，无法完全替代低级软件工程师。

❓

延伸问答

SWE-Lancer基准的主要目的是什么？

SWE-Lancer基准旨在评估AI大模型在真实软件工程任务中的表现，并将模型性能与现实世界的货币价值联系起来。

Claude 3.5 Sonnet在SWE-Lancer基准中的表现如何？

Claude 3.5 Sonnet在SWE-Lancer基准中表现最佳，完成的任务最多，获得了最高的403,325美元。

SWE-Lancer数据集包含多少个任务？

SWE-Lancer数据集包含1488个软件工程任务。

SWE-Lancer基准中任务的类型有哪些？

SWE-Lancer基准中的任务分为个人贡献者任务和管理任务。

OpenAI如何评估模型在SWE-Lancer基准中的表现？

OpenAI通过与专业软件工程师的端到端测试和原始工程经理的选择对比来评估模型的表现。

AI模型在SWE-Lancer基准中面临哪些挑战？

AI模型在SWE-Lancer基准中面临的挑战包括无法完全解决复杂任务和缺乏对问题根本原因的深入理解。

🏷️

继续阅读

LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
是时候造一台 AI 时代的手机了｜AIDONE 第五期
在AI时代，手机成为AI应用的最佳终端。vivo与爱范儿将于6月10日在广州举办AIDONE第五期，讨论如何将AI更好地融入手机工作流，提升用户体验。参与...
谷歌800亿融资，巴菲特久违接盘，背后有什么鬼故事？
谷歌融资847.5亿美元并停止股票回购，以应对未来挑战并囤积现金。巴菲特的伯克希尔哈撒韦投资100亿美元，显示市场对AI的信心。科技巨头们纷纷转向AI基础...
三大AI大佬联名要求强制筛查DNA订单：超级病毒即将进入车库实验室
三位AI专家呼吁立法，要求强制筛查合成DNA订单，因AI技术降低了生物武器制造的门槛，邮购病毒已成为现实。合成DNA过程简单，已有案例显示危险技术被滥用，...
Endava如何围绕AI代理重新设计软件交付
Endava是一家全球技术服务公司，专注于利用AI解决复杂商业问题。公司重新设计工作流程，推动AI在软件交付和日常运营中的应用，提升效率。AI不仅被开发团...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...