小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

SWE-bench Verified 是由普林斯顿大学等机构开发的软件工程基准测试,专门用于评估AI系统解决真实软件工程问题的能力。该基准测试收集了来自 scikit-learn、matplotlib、requests 等知名开源 Python 项目的真实 GitHub Issues,要求AI模型理解问题描述、分析现有代码库结构,并生成能够修复 Bug 或实现新功能的代码补丁。

JoyCode:SWE-bench Verified打榜技术报告

京东科技开发者
京东科技开发者 · 2025-11-03T07:32:43Z

京东云JoyCode-Agent在SWE-Bench基准测试中以74.6%的通过率位列全球前三,展现出卓越的编程能力。该工具支持自动化编程,优化开发流程,降低成本,已服务数万研发人员。

得分率超74.6%,京东云JoyCode-Agent位居SWE-Bench全球榜单Top3

量子位
量子位 · 2025-10-15T06:45:46Z
Claude Sonnet 4.5 在SWE-Bench验证中表现出色,编码专注时间延长至30小时以上

Anthropic发布了Claude Sonnet 4.5,这是其最新的编码模型,显著提升了代理任务和计算机使用能力。该模型在安全性和训练方法上有显著改进,减少了谄媚和欺骗倾向,安全评分达到98.7%。用户反馈表明编码工作流显著提升,建议所有用户升级。

Claude Sonnet 4.5 在SWE-Bench验证中表现出色,编码专注时间延长至30小时以上

InfoQ
InfoQ · 2025-10-11T20:00:00Z

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

机器之心
机器之心 · 2025-09-16T02:15:42Z
使用TeamCity和SWE-bench测试AI编码代理

JetBrains开发了AI编码代理Junie的测试系统,利用TeamCity和SWE-bench基准进行真实任务评估。通过缓存数据集和Docker镜像,确保测试环境稳定,降低失败率,提高效率。该系统提供可靠的性能指标,帮助开发者评估AI代理的质量。

使用TeamCity和SWE-bench测试AI编码代理

The JetBrains Blog
The JetBrains Blog · 2025-09-11T08:35:30Z
Anthropic的Claude Opus 4.1提升了重构和安全性,SWE-bench Verified得分达到74.5%

Anthropic推出Claude Opus 4.1,提升了多文件项目的编码可靠性和长时间交互的推理能力,SWE-bench Verified得分达到74.5%。新版本改善了代码重构和推理链跟踪,安全性提升,'无害响应率'达到98.76%。该模型现已向付费用户开放。

Anthropic的Claude Opus 4.1提升了重构和安全性,SWE-bench Verified得分达到74.5%

InfoQ
InfoQ · 2025-08-28T09:00:00Z

从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐

机器之心
机器之心 · 2025-08-08T08:41:41Z

不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜

机器之心
机器之心 · 2025-06-27T06:59:08Z

蚂蚁推出的开源模型CGM在SWE-bench Lite上表现出色,修复bug成功率达到44%。该模型通过融合代码图模态,提升了代码理解和修复效率,减少了对复杂Agent的依赖,展现出强大的跨语言和跨项目能力。CGM的技术和代码已开源,提供灵活透明的解决方案。

大模型首次直接理解代码图:不用Agent修bug,登顶SWE-Bench开源榜

量子位
量子位 · 2025-06-27T06:57:47Z
开源Refact.ai代理在SWE-bench Lite中自主实现#1

Refact.ai Agent在SWE-bench Lite中成功解决了300个任务中的179个,成功率为59.7%。该代理完全自主,无需人工干预,具备规划、执行、测试和自我修正能力。使用的Claude 3.7模型展现了出色的多步骤指令处理能力,深度分析工具提升了解决方案质量,表明AI代理在软件工程任务中的自主处理能力日益增强。

开源Refact.ai代理在SWE-bench Lite中自主实现#1

DEV Community
DEV Community · 2025-05-05T21:45:32Z
SWE-bench与SWE-bench Verified基准

研究人员提出了SWE-bench评估框架,包含2294个来自GitHub的真实软件工程问题,旨在测试语言模型解决问题的能力。通过FAIL_TO_PASS和PASS_TO_PASS单元测试验证解决方案的正确性。OpenAI与开发者合作,改进了测试样本质量,发布了SWE-bench Verified,包含500个经过验证的样本。

SWE-bench与SWE-bench Verified基准

DEV Community
DEV Community · 2025-04-06T20:57:40Z

本研究提出了Multi-SWE-bench基准,旨在解决现有基准在多种软件生态系统中评估大型语言模型的不足,涵盖多种编程语言,推动强化学习研究的发展。

Multilingual Problem-Solving Benchmark: Multi-SWE-bench

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z
A Closer Look at Two Key Benchmarks of Claude 3.7: SWE-Bench & TAU-Bench

Claude 3.7 Sonnet发布,显著提升了AI编码代理的能力。在SWE-bench和TAU-bench基准测试中,SWE-bench的解决率从49%提升至70%,TAU-bench也有明显进步。尽管测试仅限于Python代码,Claude 3.7的表现优于3.5,显示出AI在编码和理解用户意图方面的进步。

A Closer Look at Two Key Benchmarks of Claude 3.7: SWE-Bench & TAU-Bench

bang's blog
bang's blog · 2025-02-27T12:12:04Z
OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

初创公司Cosine推出自主AI程序员Genie,其在SWE-bench上得分30%,超过了AI程序员Devin的13.8%。OpenAI发布了改进版本SWE-bench Verified,GPT-4o在该版本上的性能达到33.2%,是原始SWE-bench的两倍多。

OpenAI「草莓」模型再次跳票,凌晨发布的SWE-bench Verified是个啥?

机器之心
机器之心 · 2024-08-14T06:38:08Z
登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

伊利诺伊大学香槟分校的研究团队提出了一种无Agent的自动修复软件工程问题的方法,名为OpenAutoCoder-Agentless。该方法在GitHub上获得了很高的关注度,并在解决问题的成本和性能方面超过了现有的开源Agent解决方案。研究者还发现了SWE-bench Lite数据集中问题描述的质量问题,并提出了一个过滤后的严格问题子集SWE-bench Lite-S。作者呼吁技术和研究社区停下来思考Agent的关键设计和评估方法。

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

机器之心
机器之心 · 2024-07-15T06:43:24Z

SciBench是一个广泛基准套件,用于检验大型语言模型在解决复杂科学问题时的推理能力。SciBench包含两个数据集,通过对两个代表性LLM进行深入的基准研究,结果表明当前LLM的表现不尽如人意,综合得分仅为35.80%。作者预计SciBench将催生LLM的推理能力进一步发展,从而最终促进科学研究和发现。

SWE-bench:能否通过语言模型解决真实世界的 GitHub 问题?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码