我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。该项目聚焦系统性解决方案,利用Trace分析失败模式,提升模型性能。通过调整系统提示词、工具和中间件,优化了agent的编码能力,最终得分达到66.5%。
Deep Agents CLI是基于Deep Agents SDK的编码代理,提供交互式终端界面。通过Terminal Bench 2.0评估,其在89个任务中得分约42.5%,与Claude Code相当。Harbor框架支持在隔离环境中评估代理,简化测试和评分过程。
完成下面两步后,将自动完成登录并继续当前操作。