登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题

机器之心 ·

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

伊利诺伊大学香槟分校的研究团队提出了一种无Agent的自动修复软件工程问题的方法，名为OpenAutoCoder-Agentless。该方法在GitHub上获得了很高的关注度，并在解决问题的成本和性能方面超过了现有的开源Agent解决方案。研究者还发现了SWE-bench Lite数据集中问题描述的质量问题，并提出了一个过滤后的严格问题子集SWE-bench Lite-S。作者呼吁技术和研究社区停下来思考Agent的关键设计和评估方法。

🎯

关键要点

伊利诺伊大学香槟分校提出了一种无Agent的自动修复软件工程问题的方法，名为OpenAutoCoder-Agentless。
OpenAutoCoder-Agentless在解决问题的成本和性能方面超过了现有的开源Agent解决方案。
研究者发现SWE-bench Lite数据集中存在问题描述的质量问题，并提出了过滤后的严格问题子集SWE-bench Lite-S。
Agentless框架以显著更低的成本解决GitHub问题，解决率达到27.33%。
Agentless使用分层查询方法定位和修复代码中的bug，具有改进的潜力。
对SWE-bench Lite数据集的分析显示，部分问题描述中包含了完整的答案或误导性解决方案。
研究者提出SWE-bench Lite-S，以去除不合理的问题并标准化基准测试的难度水平。
作者呼吁技术和研究社区重新思考Agent的设计与评估方法。

🏷️

继续阅读

AI客服越智能越坑人？坑了商家、坑客户，咋办？
AI客服给商家和顾客带来了困扰。商家面临客户诱导生成折扣码的问题，顾客则因无法解决问题而感到沮丧。AI客服的设计主要是为了节省成本，未必能有效解决实际问题...
上下文衰退如何影响企业AI和大型语言模型（LLM）的结果，以及如何解决这一问题
上下文衰退影响企业AI和大型语言模型（LLM）的表现。旧数据未被清除，导致信息混乱和推理能力下降。企业需监控关键数据指标，清除过时数据，以提升AI的准确性和效率。
深入探讨：GitHub Agentic Workflows 的安全架构
自动化在软件开发中带来便利，但也带来安全隐患。GitHub Agentic Workflows通过分层安全架构确保代理在CI/CD中安全运行，防止未授权访...
Visual Studio 开发者基础：每位开发者的免费实用工具
Dev Essentials让我重新审视那些因时间或成本未优先考虑的领域。以前令我畏惧的云服务，现在可以轻松尝试，培训路径也变得更加易于获取。
2026年人工智能如何推动收入增长、降低成本并提升各行业生产力
AI在各行业的应用不断增加，企业对投资回报率的关注也在上升。调查显示，64%的公司，尤其是大型企业，积极采用AI。AI不仅提升了生产力和收入，还降低了成本...
mace：又一个嵌入式 key-value 存储
mace 是一个基于 Rust 的嵌入式 KV 引擎，结合了 B+ 树和 LSM 树的优点，适合高并发读写和扫描场景。支持 ACID 事务和 MVCC，性...

登顶开源AI软件工程师榜首，UIUC无Agent方案轻松解决SWE-bench真实编程问题

内容提要

关键要点

标签

继续阅读