多伦多大学等机构提出了规范级推理评估基准SpecBench,以评估软件工程Agent在规范设计阶段的能力。研究显示,GPT-5.4在基础级任务的准确率为62.1%,但在进阶和困难级任务中显著下降,分别为44.4%和28.7%。这表明当前Agent在规范推理上的能力低于预期,强调了规范设计在软件工程中的重要性。SpecBench为评估提供了标准化工具,推动评估体系向规范层面扩展。
完成下面两步后,将自动完成登录并继续当前操作。