小红花·文摘 - 小红花技术领袖俱乐部

本研究分析了461篇论文中的181个基准，发现CodeLLMs和智能体评估在软件开发生命周期中的覆盖不均，约60%集中在开发阶段，而需求工程和设计阶段仅占5%和3%。研究还指出了当前的挑战，并提出了未来的研究方向。

软件开发生命周期视角：代码大型语言模型和智能体基准的调查

BriefGPT - AI 论文速递 ·

卷起来！让智能体评估智能体，Meta发布Agent-as-a-Judge

卷起来！让智能体评估智能体，Meta发布Agent-as-a-Judge

机器之心 ·