小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

Cursor发布了新的AI编程评测基准CursorBench,评估不同模型的智能体表现。与SWE-Bench相比,Claude Haiku 4.5和Sonnet 4.5的分数显著下降,表明CursorBench更能反映真实开发场景。评测结合线上线下,任务真实且规模大,评分机制合理,结果与用户体验一致。

拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude

量子位
量子位 · 2026-03-14T06:25:48Z
我们为何不再评估SWE-bench Verified

自2024年发布以来,SWE-bench Verified被广泛用于评估自主软件工程模型的进展。然而,分析显示其测试存在缺陷,导致模型能力的提升未能真实反映实际开发能力。OpenAI建议停止报告该基准分数,并开发新的评估方法。

我们为何不再评估SWE-bench Verified

OpenAI
OpenAI · 2026-02-23T11:00:00Z
JoyCode:SWE-bench Verified打榜技术报告

JoyCode Agent在SWE-Bench基准测试中以74.6%的通过率跻身全球前3,并正式开源。该系统通过“补丁–单测协同生成与迭代验证”框架,显著提高了补丁的正确率和修复覆盖率,同时降低了计算资源消耗,展现了其高效的自动化修复能力和商业价值。

JoyCode:SWE-bench Verified打榜技术报告

京东科技开发者
京东科技开发者 · 2025-11-03T07:32:43Z

京东云JoyCode-Agent在SWE-Bench基准测试中以74.6%的通过率位列全球前三,展现出卓越的编程能力。该工具支持自动化编程,优化开发流程,降低成本,已服务数万研发人员。

得分率超74.6%,京东云JoyCode-Agent位居SWE-Bench全球榜单Top3

量子位
量子位 · 2025-10-15T06:45:46Z
Claude Sonnet 4.5 在SWE-Bench验证中表现出色,编码专注时间延长至30小时以上

Anthropic发布了Claude Sonnet 4.5,这是其最新的编码模型,显著提升了代理任务和计算机使用能力。该模型在安全性和训练方法上有显著改进,减少了谄媚和欺骗倾向,安全评分达到98.7%。用户反馈表明编码工作流显著提升,建议所有用户升级。

Claude Sonnet 4.5 在SWE-Bench验证中表现出色,编码专注时间延长至30小时以上

InfoQ
InfoQ · 2025-10-11T20:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

机器之心
机器之心 · 2025-09-16T02:15:42Z
使用TeamCity和SWE-bench测试AI编码代理

JetBrains开发了AI编码代理Junie的测试系统,利用TeamCity和SWE-bench基准进行真实任务评估。通过缓存数据集和Docker镜像,确保测试环境稳定,降低失败率,提高效率。该系统提供可靠的性能指标,帮助开发者评估AI代理的质量。

使用TeamCity和SWE-bench测试AI编码代理

The JetBrains Blog
The JetBrains Blog · 2025-09-11T08:35:30Z
Anthropic的Claude Opus 4.1提升了重构和安全性,SWE-bench Verified得分达到74.5%

Anthropic推出Claude Opus 4.1,提升了多文件项目的编码可靠性和长时间交互的推理能力,SWE-bench Verified得分达到74.5%。新版本改善了代码重构和推理链跟踪,安全性提升,'无害响应率'达到98.76%。该模型现已向付费用户开放。

Anthropic的Claude Opus 4.1提升了重构和安全性,SWE-bench Verified得分达到74.5%

InfoQ
InfoQ · 2025-08-28T09:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,简化数据爬取流程。

从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐

机器之心
机器之心 · 2025-08-08T08:41:41Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

机器之心
机器之心 · 2025-06-27T06:59:08Z

蚂蚁推出的开源模型CGM在SWE-bench Lite上表现出色,修复bug成功率达到44%。该模型通过融合代码图模态,提升了代码理解和修复效率,减少了对复杂Agent的依赖,展现出强大的跨语言和跨项目能力。CGM的技术和代码已开源,提供灵活透明的解决方案。

大模型首次直接理解代码图:不用Agent修bug,登顶SWE-Bench开源榜

量子位
量子位 · 2025-06-27T06:57:47Z
开源Refact.ai代理在SWE-bench Lite中自主实现#1

Refact.ai Agent在SWE-bench Lite中成功解决了300个任务中的179个,成功率为59.7%。该代理完全自主,无需人工干预,具备规划、执行、测试和自我修正能力。使用的Claude 3.7模型展现了出色的多步骤指令处理能力,深度分析工具提升了解决方案质量,表明AI代理在软件工程任务中的自主处理能力日益增强。

开源Refact.ai代理在SWE-bench Lite中自主实现#1

DEV Community
DEV Community · 2025-05-05T21:45:32Z
SWE-bench与SWE-bench Verified基准

研究人员提出了SWE-bench评估框架,包含2294个来自GitHub的真实软件工程问题,旨在测试语言模型解决问题的能力。通过FAIL_TO_PASS和PASS_TO_PASS单元测试验证解决方案的正确性。OpenAI与开发者合作,改进了测试样本质量,发布了SWE-bench Verified,包含500个经过验证的样本。

SWE-bench与SWE-bench Verified基准

DEV Community
DEV Community · 2025-04-06T20:57:40Z

本研究提出了Multi-SWE-bench基准,旨在解决现有基准在多种软件生态系统中评估大型语言模型的不足,涵盖多种编程语言,推动强化学习研究的发展。

Multilingual Problem-Solving Benchmark: Multi-SWE-bench

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z
细看 Claude 3.7 两个重要的 Benchmark:SWE-Bench & TAU-Bench

Claude 3.7 Sonnet发布,显著提升了AI编码代理的能力。在SWE-bench和TAU-bench基准测试中,SWE-bench的解决率从49%提升至70%,TAU-bench也有明显进步。尽管测试仅限于Python代码,Claude 3.7的表现优于3.5,显示出AI在编码和理解用户意图方面的进步。

细看 Claude 3.7 两个重要的 Benchmark:SWE-Bench & TAU-Bench

bang's blog
bang's blog · 2025-02-27T12:12:04Z
Composio的SWE代理在SweBench上利用LangGraph和LangSmith取得48.6%的分数,推动开源发展

SWE-Kit是一个开源无头IDE,提供AI编码工具,支持安全代码执行和分析。通过LangGraph构建的智能代理在2294个GitHub问题中解决了243个,准确率为48.60%。该系统采用状态机管理代理,确保高效工作流,适用于软件工程等领域。

Composio的SWE代理在SweBench上利用LangGraph和LangSmith取得48.6%的分数,推动开源发展

LangChain Blog
LangChain Blog · 2024-11-11T17:16:31Z
OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。OpenAI发布了改进版本SWE-bench Verified,GPT-4o在该版本上的性能达到33.2%,是原始SWE-bench的两倍多。

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

机器之心
机器之心 · 2024-08-14T06:38:08Z
介绍SWE-bench验证

SWE-bench测试集样本来自12个开源Python项目的GitHub问题,包含解决方案代码和单元测试,分为FAIL_TO_PASS和PASS_TO_PASS两组,编辑需通过这两组测试以确保问题解决且未影响其他功能。

介绍SWE-bench验证

OpenAI
OpenAI · 2024-08-13T10:00:00Z
登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

伊利诺伊大学香槟分校的研究团队提出了一种无Agent的自动修复软件工程问题的方法,名为OpenAutoCoder-Agentless。该方法在GitHub上获得了很高的关注度,并在解决问题的成本和性能方面超过了现有的开源Agent解决方案。研究者还发现了SWE-bench Lite数据集中问题描述的质量问题,并提出了一个过滤后的严格问题子集SWE-bench Lite-S。作者呼吁技术和研究社区停下来思考Agent的关键设计和评估方法。

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

机器之心
机器之心 · 2024-07-15T06:43:24Z

SciBench是一个广泛基准套件,用于检验大型语言模型在解决复杂科学问题时的推理能力。SciBench包含两个数据集,通过对两个代表性LLM进行深入的基准研究,结果表明当前LLM的表现不尽如人意,综合得分仅为35.80%。作者预计SciBench将催生LLM的推理能力进一步发展,从而最终促进科学研究和发现。

SWE-bench:能否通过语言模型解决真实世界的 GitHub 问题?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码