DevBench:软件开发综合基准
原文中文,约500字,阅读约需2分钟。发表于: 。最近的大型语言模型 (LLMs) 的进展显著增强了它们的编码能力。然而,现有的基准主要关注编程的简化或隔离方面,如单文件代码生成或存储库问题调试,无法全面衡量真实世界编程活动引发的各种挑战。为此,我们提出了 DevBench,这是一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实施、验收测试和单元测试。DevBench...
最近的大型语言模型 (LLMs) 在编码能力方面取得了显著进展。研究人员提出了一个名为DevBench的全面基准,用于评估真实世界编程活动的挑战。经验证实证研究发现,当前的LLMs未能解决DevBench中的挑战。这些发现为未来LLMs在真实世界编程应用方面提供了有价值的洞察。