LangChain Blog ·

如何使用Harbor和LangSmith构建深度代理的评估工作流程

💡 原文英文，约2400词，阅读约需9分钟。

📝

内容提要

深度代理简化了工作代理的创建。本文介绍了如何通过编码代理建立评估工作流程，并结合Harbor、Terminal Bench和LangSmith来优化代理性能。通过系统评估和观察，识别改进机会，实现持续优化。

🎯

关键要点

深度代理简化了工作代理的创建，能够在几分钟内建立工作代理。
通过编码代理建立评估工作流程，结合Harbor、Terminal Bench和LangSmith来优化代理性能。
深度代理架构包含四个关键组件：详细系统提示、规划工具、文件系统和子代理。
评估代理性能需要严格的评估和详细的可观察性，以了解失败原因。
Harbor是一个用于在容器化环境中评估代理的框架，支持多种沙箱提供者。
Terminal Bench 2.0是一个基准数据集，用于评估代理在多个领域的能力。
通过LangSmith集成实现观察性，自动捕获代理的每个操作和性能指标。
分析执行轨迹以识别改进机会，利用数据指导决策。
改进循环包括构建代理、在Harbor中运行、使用LangSmith分析、改进和重复。
系统化的过程对于测量性能、识别失败模式和迭代改进至关重要。

🏷️

继续阅读

FAST'26 论文速递 | 华为云: 基于磁带的高性价比归档云存储 - 设计与部署
本文介绍了一种基于磁带的高效归档云存储设计，强调其低成本和适合深度冷存储的特点。系统主要以写为主，用户读操作极少，数据生命周期长。设计考虑了磁带的物理限制...
【Rust日报】2026-03-06 CEL与Rust实现接近原生速度的解释执行
文章介绍了如何在Rust中优化CEL（通用表达式语言）的性能，使其接近原生代码速度，解决了变量物化、堆分配和哈希查找等瓶颈。通过直接解析原生Rust类型的...
在人工智能加速的工作流程中的人类策略
设计师们普遍担心AI代理会取代他们的工作，尤其是在职业发展和雇主采用AI工具的速度上。不过，一些组织因数据安全问题尚未使用AI工具。
如何构建一个适用于生产的WebRTC语音代理架构
本文介绍了使用LiveKit进行音频通话的JavaScript代码，涵盖连接、断开、重连等功能，并处理音频轨道播放和麦克风权限。用户可通过按钮开始或结束通话。
在Markdown文件上运行AI代理而非MCP服务器的理由
Supabase开源了一个代理技能库，将开发实践与API交互分离。微软的.NET技能执行器使用SKILL.md文件，越来越多的开发者认为“Markdown...
如何在生产工作负载中使用 Docker Compose — 配置文件、监控模式和 GPU 支持
Docker Compose 近年来更新显著，新增配置文件、监控模式和GPU支持，使其适用于复杂部署场景。通过配置文件管理环境、监控模式加速开发及健康检查...

如何使用Harbor和LangSmith构建深度代理的评估工作流程

内容提要

关键要点

标签

继续阅读