软件开发生命周期视角:代码大型语言模型和智能体基准的调查

本研究针对代码大型语言模型(CodeLLMs)和智能体在软件开发生命周期中的基准评估进行了全面回顾,以解决目前对这些基准评审缺乏的情况。研究分析了来自461篇相关论文的181个基准,发现当前基准主要集中在软件开发阶段,而需求工程和软件设计阶段的关注度极低。此结果为改善CodeLLMs和智能体在实际应用中的能力提供了重要参考。

本研究分析了461篇论文中的181个基准,发现CodeLLMs和智能体评估在软件开发生命周期中的覆盖不均,约60%集中在开发阶段,而需求工程和设计阶段仅占5%和3%。研究还指出了当前的挑战,并提出了未来的研究方向。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文