通过工程化的Harness改进Deep Agent

通过工程化的Harness改进Deep Agent

💡 原文中文,约5100字,阅读约需13分钟。
📝

内容提要

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。该项目聚焦系统性解决方案,利用Trace分析失败模式,提升模型性能。通过调整系统提示词、工具和中间件,优化了agent的编码能力,最终得分达到66.5%。

🎯

关键要点

  • 我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。
  • Harness工程的目标是塑造模型的不稳定智能,以解决关注的任务能力。
  • 使用Trace分析总结Agent的失败模式,观察输入输出文本以改进模型。
  • 在Terminal Bench 2.0上,deepagents-cli的得分从52.8%提升至66.5%。
  • 实验使用Harbor编排运行,记录每个Agent的操作及相关指标。
  • 可调参数包括系统提示词、工具、钩子/中间件等,重点优化这三方面。
  • Trace分析被封装为Agent Skill,以便多次运行分析错误并改进harness。
  • 自我验证允许Agent通过反馈进行自我改进,测试是关键环节。
  • 在提示词中添加问题解决指导,强调规划、构建、验证和修复的步骤。
  • 上下文工程构建良好的交付机制,帮助Agent快速熟悉环境。
  • 注入时间预算警告,引导Agent尽快完成工作并转入验证阶段。
  • 使用LoopDetectionMiddleware帮助Agent避免短视和死循环。
  • 推理模型的计算资源投入需合理分配,以优化每个子任务的执行。
  • 构建Agent Harness的实践要点包括上下文工程、自我验证和快速修复不良模式。
  • 针对不同模型量身定制Harness,以最大化Agent性能。
  • 未来的研究方向包括多模型系统和持续学习的记忆原语。
➡️

继续阅读