LangChain Blog ·

在Terminal Bench 2.0上评估DeepAgents CLI

💡 原文英文，约800词，阅读约需3分钟。

📝

内容提要

DeepAgents CLI是基于Deep Agents SDK的编码代理，支持终端交互和文件操作。通过Terminal Bench 2.0评估，DeepAgents CLI在89项任务中得分约42.5%，与Claude Code相当。Harbor框架提供隔离环境，支持自动化测试和评分，简化评估过程。

🎯

关键要点

DeepAgents CLI是基于Deep Agents SDK的编码代理，支持终端交互和文件操作。
DeepAgents CLI在Terminal Bench 2.0评估中得分约42.5%，与Claude Code相当。
DeepAgents CLI是开源的，使用Python编写，支持文件操作、命令执行、网络搜索等功能。
Harbor框架提供隔离环境，支持自动化测试和评分，简化评估过程。
Harbor支持Docker等容器化环境，处理自动测试执行和奖励评分。
Terminal Bench 2.0包含89个任务，涵盖软件工程、生物学、安全和游戏等领域。
DeepAgents CLI在Terminal Bench 2.0的基线结果为44.9%和40.4%，平均得分为42.65%。
未来将系统分析代理的执行轨迹，识别具体优化点以提高性能。

🔎

延伸解读

DeepAgents CLI的应用场景

DeepAgents CLI作为一个开源的编码代理，适用于多种领域，包括软件工程、生物学和安全等。其支持的终端交互和文件操作功能，使其在处理复杂任务时具备灵活性，尤其在需要快速迭代和测试的开发环境中，能够显著提高工作效率。

Harbor框架的优势

Harbor框架为DeepAgents CLI提供了一个隔离的测试环境，确保每次评估都在干净的状态下进行。这种沙盒环境不仅提高了测试的可靠性，还支持并行测试，极大地缩短了评估周期，适合需要高频率迭代的开发流程。

评估结果的意义

DeepAgents CLI在Terminal Bench 2.0的得分约为42.5%，与Claude Code相当。这一结果表明，DeepAgents CLI在当前技术水平下具有竞争力，但仍有提升空间。未来的优化方向将集中在分析执行轨迹和识别具体的改进点上。

❓

延伸问答

DeepAgents CLI是什么？

DeepAgents CLI是基于Deep Agents SDK的开源编码代理，支持终端交互和文件操作，使用Python编写。

DeepAgents CLI在Terminal Bench 2.0的表现如何？

DeepAgents CLI在Terminal Bench 2.0评估中得分约42.5%，与Claude Code相当。

Harbor框架的作用是什么？

Harbor框架提供隔离环境，支持自动化测试和评分，简化了代理的评估过程。

Terminal Bench 2.0包含哪些任务？

Terminal Bench 2.0包含89个任务，涵盖软件工程、生物学、安全和游戏等领域。

DeepAgents CLI的未来发展方向是什么？

未来将系统分析代理的执行轨迹，识别具体优化点以提高性能。

如何使用Harbor进行DeepAgents CLI的评估？

可以通过配置API密钥并使用Docker运行Harbor来评估DeepAgents CLI，具体步骤包括克隆代码库和运行相关命令。

🏷️