本研究分析了461篇论文中的181个基准,发现CodeLLMs和智能体评估在软件开发生命周期中的覆盖不均,约60%集中在开发阶段,而需求工程和设计阶段仅占5%和3%。研究还指出了当前的挑战,并提出了未来的研究方向。
Meta推出Agent-as-a-Judge框架,通过智能体评估智能体,提升评估效率和准确性,减少对人工评估的依赖。实验表明,该框架的评估结果与人类专家高度一致。Meta还发布了涵盖55个AI开发任务的DevAI数据集,提供更全面的评估标准。
完成下面两步后,将自动完成登录并继续当前操作。