排行榜排名高 = 编码能力一直出众吗?通过 LLM 实现演进的编码基准评估
原文中文,约400字,阅读约需1分钟。发表于: 。通过 EvoEval 基准套件的引入,评估 LLM 在编码方面的能力,我们的研究展示了 51 个 LLM 的性能显著下降(平均下降 39.4%),从而显示了现有基准的潜在过拟合,并展示了指令跟随模型在重述或微小更改时的脆弱性以及学习问题组成和分解的重要性。
最近的大型语言模型 (LLMs) 的进展显著增强了编码能力,但现有基准无法全面衡量真实世界编程活动的挑战。我们提出了 DevBench,一个全面的基准,评估 LLMs 在软件开发生命周期的各个阶段。验证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 中的挑战。我们的发现为未来 LLMs 的真实世界编程应用提供了洞察。