BriefGPT - AI 论文速递 ·

代码 R：多智能体和任务图的问题解决

💡 原文中文，约2300字，阅读约需6分钟。

📝

内容提要

新一代语言模型在软件工程中的应用面临挑战。研究提出了SWE-agent和MAGIS等框架，以提高模型解决GitHub问题的能力。SWE-agent通过自定义界面增强代码处理能力，而MAGIS通过多智能体协作提高问题解决率。此外，RepoBench和RepoClassBench等基准测试评估了代码自动完成和类级生成的效果，强调了结合库级依赖关系的重要性。

🎯

关键要点

新一代语言模型在软件工程领域的应用面临挑战，现有模型在解决GitHub问题时仍存在困难。
SWE-agent是一个自主系统，通过自定义的agent-computer interface增强代码处理能力，解决问题的成功率达到12.5%。
MAGIS是一个多智能体框架，通过代理人的协作提高GitHub问题的解决率，成功率为13.94%。
RepoBench是一个新基准，评估代码自动完成系统的能力，包含三个评估任务。
RepoClassBench旨在评估LLMs在创建复杂类级代码时的能力，强调结合库级依赖关系的重要性。
Retrieve-Repotools-Reflect (RRR)方法为LLMs提供静态分析工具，以更好地理解库上下文，实验结果显示其有效性。

❓

延伸问答

SWE-agent是什么，它的主要功能是什么？

SWE-agent是一个自主系统，通过自定义的agent-computer interface增强代码处理能力，能够创建和编辑代码文件、浏览代码库和执行程序。

MAGIS框架如何提高GitHub问题的解决率？

MAGIS是一个多智能体框架，通过四种定制化的代理人协作，利用规划和编码过程来提高GitHub问题的解决率，成功率达到13.94%。

RepoBench和RepoClassBench的目的是什么？

RepoBench旨在评估代码自动完成系统的能力，而RepoClassBench则评估LLMs在创建复杂类级代码时的能力，强调库级依赖关系的重要性。

Retrieve-Repotools-Reflect (RRR)方法的作用是什么？

RRR方法为LLMs提供静态分析工具，以更好地理解库上下文，实验结果显示其在RepoClassBench上明显优于现有基准线。

新一代语言模型在软件工程中面临哪些挑战？

新一代语言模型在解决GitHub问题时仍存在困难，呼吁提高模型在实际应用中的智能和自主能力。

RepoCoder框架的优势是什么？

RepoCoder通过结合基于相似度的检索器和预训练的代码语言模型，简化存储库级代码完成流程，并在各种设置中显著提高了零样本代码完成基线。

🏷️