通过工程化的Harness改进Deep Agent

通过工程化的Harness改进Deep Agent

💡 原文中文,约5100字,阅读约需13分钟。
📝

内容提要

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。该项目聚焦系统性解决方案,利用Trace分析失败模式,提升模型性能。通过调整系统提示词、工具和中间件,优化了agent的编码能力,最终得分达到66.5%。

🎯

关键要点

  • 我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。

  • Harness工程的目标是塑造模型的不稳定智能,以解决关注的任务能力。

  • 使用Trace分析总结Agent的失败模式,观察输入输出文本以改进模型。

  • 在Terminal Bench 2.0上,deepagents-cli的得分从52.8%提升至66.5%。

  • 实验使用Harbor编排运行,记录每个Agent的操作及相关指标。

  • 可调参数包括系统提示词、工具、钩子/中间件等,重点优化这三方面。

  • Trace分析被封装为Agent Skill,以便多次运行分析错误并改进harness。

  • 自我验证允许Agent通过反馈进行自我改进,测试是关键环节。

  • 在提示词中添加问题解决指导,强调规划、构建、验证和修复的步骤。

  • 上下文工程构建良好的交付机制,帮助Agent快速熟悉环境。

  • 注入时间预算警告,引导Agent尽快完成工作并转入验证阶段。

  • 使用LoopDetectionMiddleware帮助Agent避免短视和死循环。

  • 推理模型的计算资源投入需合理分配,以优化每个子任务的执行。

  • 构建Agent Harness的实践要点包括上下文工程、自我验证和快速修复不良模式。

  • 针对不同模型量身定制Harness,以最大化Agent性能。

  • 未来的研究方向包括多模型系统和持续学习的记忆原语。

延伸问答

如何通过优化harness提升Coding Agent的性能?

通过优化harness,调整系统提示词、工具和中间件,Coding Agent的得分从52.8%提升至66.5%。

Trace分析在改进Agent性能中起什么作用?

Trace分析帮助总结Agent的失败模式,通过观察输入输出文本来改进模型,提升其编码能力。

在构建Agent时,如何进行自我验证?

自我验证通过反馈机制允许Agent在运行中不断改进,测试是关键环节,确保整体正确性。

如何管理Agent的时间预算以提高效率?

通过在上下文中注入时间预算警告,引导Agent尽快完成工作并转入验证阶段。

构建Agent Harness的关键实践要点有哪些?

关键实践包括上下文工程、自我验证、快速修复不良模式,以及为不同模型量身定制Harness。

未来的研究方向是什么?

未来研究方向包括多模型系统和持续学习的记忆原语,以提升Agent的自主改进能力。

➡️

继续阅读