Teach Talk ·

通过工程化的Harness改进Deep Agent

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名，主要通过优化harness实现。该项目聚焦系统性解决方案，利用Trace分析失败模式，提升模型性能。通过调整系统提示词、工具和中间件，优化了agent的编码能力，最终得分达到66.5%。

🎯

关键要点

我们的Coding Agent在Terminal Bench 2.0中从第30名跃升至第5名，主要通过优化harness实现。
Harness工程的目标是塑造模型的不稳定智能，以解决关注的任务能力。
使用Trace分析总结Agent的失败模式，观察输入输出文本以改进模型。
在Terminal Bench 2.0上，deepagents-cli的得分从52.8%提升至66.5%。
实验使用Harbor编排运行，记录每个Agent的操作及相关指标。
可调参数包括系统提示词、工具、钩子/中间件等，重点优化这三方面。
Trace分析被封装为Agent Skill，以便多次运行分析错误并改进harness。
自我验证允许Agent通过反馈进行自我改进，测试是关键环节。
在提示词中添加问题解决指导，强调规划、构建、验证和修复的步骤。
上下文工程构建良好的交付机制，帮助Agent快速熟悉环境。
注入时间预算警告，引导Agent尽快完成工作并转入验证阶段。
使用LoopDetectionMiddleware帮助Agent避免短视和死循环。
推理模型的计算资源投入需合理分配，以优化每个子任务的执行。
构建Agent Harness的实践要点包括上下文工程、自我验证和快速修复不良模式。
针对不同模型量身定制Harness，以最大化Agent性能。
未来的研究方向包括多模型系统和持续学习的记忆原语。

🏷️

继续阅读

当 Kanban 不再管理人：Routa Kanban 如何管理 Agent Team
Routa Kanban 旨在提升多 Agent 协作的管理效率，强调从“消息驱动”转向“管理驱动”。通过可视化任务状态和上下文信息，增强软件交付的工程化...
HIL-DAFT — Fine-tuning of Human-in-the-Loop Reinforcement Learning Framework for Dual Agents in Humanoid VLA (Preheating Offline followed by Online Interaction): For Bolt Assembly, the Main Agent Handles Routine Operations while the Fine-tuning Agent Executes Fine-grained Adjustments Based on Voice Commands
将Live555静态库移植到Android ARM64平台，主要包括BasicUsageEnvironment、groupsock和liveMedia三个...
AI驱动量子精修，卡内基梅隆大学等提出AQuaRef，首次用量子力学约束精修蛋白质全原子模型
为理解生命过程的分子机制，需解析生物大分子的三维结构。冷冻电镜和X射线晶体学是主要技术，AlphaFold等计算方法也取得进展。卡内基梅隆大学提出的AQu...
香港应科院在第51届“日内瓦国际发明展”中获得十项殊荣
香港应用科技研究院在第51届日内瓦国际发明展中荣获十项奖项，包括五项金奖和五项铜奖，涵盖人工智能、能源和医疗等领域。金奖项目包括储能安全系统和5G卫星连接技术。
奇点图谱未来将以每季度一枚卫星的发射频率，构建天地一体化算力网络
在2026年中国家电及消费电子博览会上，追觅科技展示了太空算力计划，计划每季度发射一颗卫星，构建天地一体化算力网络。李晓通强调自研通讯模块实现“手机直连算...
上周AI动态 #338 - Anthropic起诉特朗普，xAI重新开始，伊朗AI伪造
对“深度伪造”的担忧在2010年代末期兴起，尽管其危害未如预期扩散，但AI生成图像的影响逐渐显现，造成经济和心理上的伤害。这些虚假战争图像的危害性令人困惑...

通过工程化的Harness改进Deep Agent

内容提要

关键要点

标签

继续阅读