BriefGPT - AI 论文速递 ·

SWE-bench-java：一个针对Java的GitHub问题解决基准

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

本文评估了新一代语言模型在软件工程中的能力，提出了多个基准测试工具（如SWE-bench、DevBench和StableToolBench），以衡量模型在实际编程任务中的表现。研究发现，当前模型在理解复杂结构和高级编程概念方面存在困难，呼吁进一步提升其智能和自主能力。

🎯

❓

SWE-bench-java旨在评估新一代语言模型在软件工程中的能力，特别是在解决实际编程问题时的表现。

当前大型语言模型在理解复杂结构和高级编程概念方面存在困难，尤其是在解决具有挑战性的编程任务时。

StableToolBench引入了虚拟API服务器和稳定的评估系统，消除了评估过程中的随机性，确保了评估的稳定性。

DevBench评估大型语言模型在软件开发生命周期各阶段的表现，包括软件设计、环境设置、实施等。

CodeR是一个多智能体框架，用于修复和解决代码存储库中的错误和添加新功能。

通过引入Bench基准测试集，评估模型在从多个库中调用函数解决细粒度编程任务的能力。

🏷️