SWE-Bench：AI编码评测基准的最新动态与技术报告 - 小红花·文摘 - 小红花技术领袖俱乐部

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

量子位 ·

我们为何不再评估SWE-bench Verified

我们为何不再评估SWE-bench Verified

OpenAI ·

JoyCode：SWE-bench Verified打榜技术报告

JoyCode：SWE-bench Verified打榜技术报告

京东科技开发者 ·

京东云JoyCode-Agent在SWE-Bench基准测试中以74.6%的通过率位列全球前三，展现出卓越的编程能力。该工具支持自动化编程，优化开发流程，降低成本，已服务数万研发人员。

得分率超74.6%，京东云JoyCode-Agent位居SWE-Bench全球榜单Top3

量子位 ·

Claude Sonnet 4.5 在SWE-Bench验证中表现出色，编码专注时间延长至30小时以上

Claude Sonnet 4.5 在SWE-Bench验证中表现出色，编码专注时间延长至30小时以上

InfoQ ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

多模态BUG修复新SOTA：慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

机器之心 ·

使用TeamCity和SWE-bench测试AI编码代理

使用TeamCity和SWE-bench测试AI编码代理

The JetBrains Blog ·

Anthropic的Claude Opus 4.1提升了重构和安全性，SWE-bench Verified得分达到74.5%

Anthropic的Claude Opus 4.1提升了重构和安全性，SWE-bench Verified得分达到74.5%

InfoQ ·

机器之心数据服务现已上线，提供高效稳定的数据获取服务，简化数据爬取流程。

从Debugger到Developer : 低代码时代新基准NoCode-bench，SWE-Bench作者力荐

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

不靠Agent，4步修复真Bug！蚂蚁CGM登顶SWE-Bench开源榜

机器之心 ·

蚂蚁推出的开源模型CGM在SWE-bench Lite上表现出色，修复bug成功率达到44%。该模型通过融合代码图模态，提升了代码理解和修复效率，减少了对复杂Agent的依赖，展现出强大的跨语言和跨项目能力。CGM的技术和代码已开源，提供灵活透明的解决方案。

大模型首次直接理解代码图:不用Agent修bug,登顶SWE-Bench开源榜

量子位 ·

开源Refact.ai代理在SWE-bench Lite中自主实现#1

开源Refact.ai代理在SWE-bench Lite中自主实现#1

DEV Community ·

SWE-bench与SWE-bench Verified基准

SWE-bench与SWE-bench Verified基准

DEV Community ·

本研究提出了Multi-SWE-bench基准，旨在解决现有基准在多种软件生态系统中评估大型语言模型的不足，涵盖多种编程语言，推动强化学习研究的发展。

Multilingual Problem-Solving Benchmark: Multi-SWE-bench

BriefGPT - AI 论文速递 ·

细看 Claude 3.7 两个重要的 Benchmark：SWE-Bench & TAU-Bench

细看 Claude 3.7 两个重要的 Benchmark：SWE-Bench & TAU-Bench

bang's blog ·

Composio的SWE代理在SweBench上利用LangGraph和LangSmith取得48.6%的分数，推动开源发展

Composio的SWE代理在SweBench上利用LangGraph和LangSmith取得48.6%的分数，推动开源发展

LangChain Blog ·

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

机器之心 ·

介绍SWE-bench验证

介绍SWE-bench验证

OpenAI ·

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题

机器之心 ·

SciBench是一个广泛基准套件，用于检验大型语言模型在解决复杂科学问题时的推理能力。SciBench包含两个数据集，通过对两个代表性LLM进行深入的基准研究，结果表明当前LLM的表现不尽如人意，综合得分仅为35.80%。作者预计SciBench将催生LLM的推理能力进一步发展，从而最终促进科学研究和发现。

SWE-bench：能否通过语言模型解决真实世界的 GitHub 问题？

BriefGPT - AI 论文速递 ·