软件开发生命周期视角：代码大型语言模型和智能体基准的调查

本研究针对代码大型语言模型（CodeLLMs）和智能体在软件开发生命周期中的基准评估进行了全面回顾，以解决目前对这些基准评审缺乏的情况。研究分析了来自461篇相关论文的181个基准，发现当前基准主要集中在软件开发阶段，而需求工程和软件设计阶段的关注度极低。此结果为改善CodeLLMs和智能体在实际应用中的能力提供了重要参考。

本研究分析了461篇论文中的181个基准，发现CodeLLMs和智能体评估在软件开发生命周期中的覆盖不均，约60%集中在开发阶段，而需求工程和设计阶段仅占5%和3%。研究还指出了当前的挑战，并提出了未来的研究方向。

CodeLLMs 大型语言模型智能体智能体评估设计阶段软件开发需求工程