Teach Talk ·

通过工程化的Harness改进Deep Agent

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名，主要通过优化harness实现。该项目聚焦系统性解决方案，利用Trace分析失败模式，提升模型性能。通过调整系统提示词、工具和中间件，优化了agent的编码能力，最终得分达到66.5%。

🎯

关键要点

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名，主要通过优化harness实现。
Harness工程的目标是塑造模型的不稳定智能，以解决关注的任务能力。
使用Trace分析总结Agent的失败模式，观察输入输出文本以改进模型。
在Terminal Bench 2.0上，deepagents-cli的得分从52.8%提升至66.5%。
实验使用Harbor编排运行，记录每个Agent的操作及相关指标。
可调参数包括系统提示词、工具、钩子/中间件等，重点优化这三方面。
Trace分析被封装为Agent Skill，以便多次运行分析错误并改进harness。
自我验证允许Agent通过反馈进行自我改进，测试是关键环节。
在提示词中添加问题解决指导，强调规划、构建、验证和修复的步骤。
上下文工程构建良好的交付机制，帮助Agent快速熟悉环境。
注入时间预算警告，引导Agent尽快完成工作并转入验证阶段。
使用LoopDetectionMiddleware帮助Agent避免短视和死循环。
推理模型的计算资源投入需合理分配，以优化每个子任务的执行。
构建Agent Harness的实践要点包括上下文工程、自我验证和快速修复不良模式。
针对不同模型量身定制Harness，以最大化Agent性能。
未来的研究方向包括多模型系统和持续学习的记忆原语。

❓

延伸问答

如何通过优化harness提升Coding Agent的性能？

通过优化harness，调整系统提示词、工具和中间件，Coding Agent的得分从52.8%提升至66.5%。

Trace分析在改进Agent性能中起什么作用？

Trace分析帮助总结Agent的失败模式，通过观察输入输出文本来改进模型，提升其编码能力。

在构建Agent时，如何进行自我验证？

自我验证通过反馈机制允许Agent在运行中不断改进，测试是关键环节，确保整体正确性。

如何管理Agent的时间预算以提高效率？

通过在上下文中注入时间预算警告，引导Agent尽快完成工作并转入验证阶段。

构建Agent Harness的关键实践要点有哪些？

关键实践包括上下文工程、自我验证、快速修复不良模式，以及为不同模型量身定制Harness。

未来的研究方向是什么？

未来研究方向包括多模型系统和持续学习的记忆原语，以提升Agent的自主改进能力。

🏷️

继续阅读

研究人员在NGINX最新版1.31.0中发现新的远程代码执行漏洞暂时不会公布细节
研究人员在NGINX 1.31.0版中发现了新的远程代码执行漏洞，可能与之前的堆内存缓冲区漏洞相关。F5尚未发布修复版本，研究人员计划在30天后公布详细信...
请火速排查！知名扩展Nx Console遭供应链攻击这也是GitHub被黑的源头
知名扩展程序Nx Console遭到供应链攻击，黑客利用窃取的凭证发布恶意版本，导致约3,800个私有源代码仓库泄露。在36分钟内，该扩展被安装超过6,0...
【Rust日报】2026-05-21 RMUX：用 Rust 编写的原生终端多路复用器
RMUX 是一个用 Rust 编写的终端多路复用器，兼容 tmux，支持自动化和多 Agent 场景，提供类型化异步 SDK，适合 AI agent 编排...
.NET 10 桌面 UI 框架的范式演进：Jalium.UI 与 MewUI 架构深度对比 - 张善友
随着.NET MAUI的推出，桌面应用开发经历了重构。Jalium.UI和MewUI是两种不同的框架，前者注重复杂性和高性能，适合大型应用；后者追求轻量化...
2026 05 21 HackerNews
谷歌发布了Gemini 3.5 Flash模型，提升了AI搜索和编码性能，适用于复杂任务。Meta因沙特和阿联酋政府要求封锁人权账号遭人权组织谴责。欧洲五...
早报｜448元，iPhone绝版配件回归/Meta用员工键鼠数据训练AI，扎克伯格：外包不够聪明/GoPro考虑出售或合并
SpaceX 正式启动 IPO，估值 1.25 万亿美元，计划在纳斯达克上市，目标募资 500 亿至 750 亿美元，成为史上最大规模上市。去年营收 18...