💡
原文中文,约5100字,阅读约需13分钟。
📝
内容提要
我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。该项目聚焦系统性解决方案,利用Trace分析失败模式,提升模型性能。通过调整系统提示词、工具和中间件,优化了agent的编码能力,最终得分达到66.5%。
🎯
关键要点
- 我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名,主要通过优化harness实现。
- Harness工程的目标是塑造模型的不稳定智能,以解决关注的任务能力。
- 使用Trace分析总结Agent的失败模式,观察输入输出文本以改进模型。
- 在Terminal Bench 2.0上,deepagents-cli的得分从52.8%提升至66.5%。
- 实验使用Harbor编排运行,记录每个Agent的操作及相关指标。
- 可调参数包括系统提示词、工具、钩子/中间件等,重点优化这三方面。
- Trace分析被封装为Agent Skill,以便多次运行分析错误并改进harness。
- 自我验证允许Agent通过反馈进行自我改进,测试是关键环节。
- 在提示词中添加问题解决指导,强调规划、构建、验证和修复的步骤。
- 上下文工程构建良好的交付机制,帮助Agent快速熟悉环境。
- 注入时间预算警告,引导Agent尽快完成工作并转入验证阶段。
- 使用LoopDetectionMiddleware帮助Agent避免短视和死循环。
- 推理模型的计算资源投入需合理分配,以优化每个子任务的执行。
- 构建Agent Harness的实践要点包括上下文工程、自我验证和快速修复不良模式。
- 针对不同模型量身定制Harness,以最大化Agent性能。
- 未来的研究方向包括多模型系统和持续学习的记忆原语。
➡️