LangChain Blog ·

在Terminal Bench 2.0上评估Deep Agents CLI

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

Deep Agents CLI是基于Deep Agents SDK的编码代理，提供交互式终端界面。通过Terminal Bench 2.0评估，其在89个任务中得分约42.5%，与Claude Code相当。Harbor框架支持在隔离环境中评估代理，简化测试和评分过程。

🎯

🔎

Deep Agents CLI作为一个开源的编码代理，适用于多种领域，包括软件工程、生物学、安全和游戏等。其交互式终端界面和丰富的功能使其在处理复杂任务时具有潜力，尤其是在需要文件操作和命令执行的场景中。

Harbor框架为Deep Agents CLI提供了一个安全的沙箱环境，确保每次评估都在干净的状态下进行。这种隔离性不仅提高了测试的可靠性，还允许并行执行多个测试，显著加快了迭代速度。

Deep Agents CLI在Terminal Bench 2.0的得分约为42.5%，与Claude Code相当。这一结果表明，Deep Agents在当前的技术水平下具备竞争力，但仍需进一步优化以提升性能。

❓

Deep Agents CLI是基于Deep Agents SDK的开源编码代理，提供交互式终端界面，支持文件操作、命令执行和网络搜索等功能。

在Terminal Bench 2.0评估中，Deep Agents CLI在89个任务中得分约42.5%，与Claude Code相当。

Harbor框架支持在隔离环境中评估代理，简化测试和评分过程，处理自动测试执行和奖励评分。

Terminal Bench 2.0包含软件工程、生物学、安全和游戏等领域的89个任务。

Deep Agents CLI在Terminal Bench 2.0的基线结果为44.9%和40.4%，平均得分为42.65%。

未来将系统分析代理的跟踪记录，识别具体优化以提高性能。

🏷️