京东科技开发者 ·

JoyCode：SWE-bench Verified打榜技术报告

💡 原文中文，约16900字，阅读约需41分钟。

📝

内容提要

JoyCode Agent在SWE-Bench基准测试中以74.6%的通过率跻身全球前3，并正式开源。该系统通过“补丁–单测协同生成与迭代验证”框架，显著提高了补丁的正确率和修复覆盖率，同时降低了计算资源消耗，展现了其高效的自动化修复能力和商业价值。

🎯

关键要点

JoyCode Agent在SWE-Bench基准测试中以74.6%的通过率跻身全球前3，并正式开源。
该系统通过'补丁–单测协同生成与迭代验证'框架，显著提高了补丁的正确率和修复覆盖率。
JoyCode Agent在实现相近性能的同时，将计算资源消耗降低了30%-50%。
SWE-bench作为自动软件工程修复领域的代表性基准，要求智能体具备高效的补丁生成与验证能力。
传统的基于提示词工程的方法已无法有效解决代码仓库级别的工程修复任务。
本文提出的框架通过在Docker环境中生成初始补丁和单元测试，实现高效的错误定位与自适应迭代。
实验结果表明，该方案在SWE-bench标准任务上显著提升了补丁的正确率与修复覆盖率。
JoyCode Agent的系统结构包括补丁生成、单测生成与验证、失败归因与经验重试的闭环流水线。
系统通过多智能体协作，确保每个问题实例都能收敛至一个最优补丁。
未来将持续优化JoyCode Agent的能力边界，推动自动化修复的智能化与工程化落地。

❓

延伸问答

JoyCode Agent在SWE-Bench基准测试中的表现如何？

JoyCode Agent在SWE-Bench基准测试中以74.6%的通过率跻身全球前3，并正式开源。

JoyCode Agent的补丁生成框架是怎样的？

JoyCode Agent采用'补丁–单测协同生成与迭代验证'框架，显著提高了补丁的正确率和修复覆盖率。

JoyCode Agent如何降低计算资源消耗？

JoyCode Agent在实现相近性能的同时，将计算资源消耗降低了30%-50%。

SWE-bench基准测试的主要目标是什么？

SWE-bench基准测试旨在评估AI系统解决真实软件工程问题的能力，要求智能体具备高效的补丁生成与验证能力。

JoyCode Agent的系统结构包含哪些部分？

JoyCode Agent的系统结构包括补丁生成、单测生成与验证、失败归因与经验重试的闭环流水线。

未来JoyCode Agent的优化方向是什么？

未来将持续优化JoyCode Agent的能力边界，推动自动化修复的智能化与工程化落地。

🏷️

继续阅读

百度文心发布 PaddleOCR-VL-1.6：准确率突破 96.33%，刷新文档解析 SOTA
百度发布的PaddleOCR-VL-1.6在OmniDocBench v1.6评测中准确率超过96.3%，综合性能全球第一，支持100多种语言，适应复杂文...
机器人运控训练步入分钟级时代！清华AIR开源UniLab：3分钟训好人形，速度暴涨10倍，Mac上也能跑
清华大学智能产业研究院推出了全新的机器人强化学习训练架构UniLab，打破了传统依赖GPU的训练模式。UniLab通过将仿真解耦到CPU侧，实现了更高的训...
Hermes Desktop – 从安装到使用，完整的 Hermes-Agent 桌面客户端
Hermes Desktop 是一款支持 Windows、macOS 和 Linux 的开源 AI 客户端，能够管理聊天、会话和配置文件。它简化了 Her...
以开放为设计理念：NVIDIA与DigitalOcean如何构建始终在线的自主时代技术栈
生成式人工智能的增长不仅依赖于专有模型，开源AI也在重塑开发者生态。NVIDIA与DigitalOcean合作开发开放模型，如NVIDIA Nemotro...
芯片盖高楼：单片式三维集成技术让摩尔定律再活二十年
伊利诺伊大学研究团队开发了一种单片式三维集成芯片技术，利用普通单晶硅在400度以下逐层堆叠晶体管，保持高性能和良品率。这项技术延续了摩尔定律，提升了AI算...
Palabra.ai 推动企业通信实时语音翻译技术在全球范围内的发展
Palabra.ai是一家总部位于伦敦的AI语音翻译公司，年收入在六个月内从6万美元增长到100万美元，显示出实时多语言通信的需求激增。该平台支持超过10...