软件开发生命周期视角:代码大型语言模型和智能体基准的调查
本研究针对代码大型语言模型(CodeLLMs)和智能体在软件开发生命周期中的基准评估进行了全面回顾,以解决目前对这些基准评审缺乏的情况。研究分析了来自461篇相关论文的181个基准,发现当前基准主要集中在软件开发阶段,而需求工程和软件设计阶段的关注度极低。此结果为改善CodeLLMs和智能体在实际应用中的能力提供了重要参考。
本研究分析了461篇论文中的181个基准,发现CodeLLMs和智能体评估在软件开发生命周期中的覆盖不均,约60%集中在开发阶段,而需求工程和设计阶段仅占5%和3%。研究还指出了当前的挑战,并提出了未来的研究方向。