在Terminal Bench 2.0上评估DeepAgents CLI

LangChain Blog ·

DeepAgents CLI是基于Deep Agents SDK的编码代理，支持终端交互和文件操作。通过Terminal Bench 2.0评估，DeepAgents CLI在89项任务中得分约42.5%，与Claude Code相当。Harbor框架提供隔离环境，支持自动化测试和评分，简化评估过程。

DeepAgents CLI Harbor框架 Terminal Bench cli 编码代理自动化测试

原文英文，约800词，阅读约需3分钟。

阅读原文

分享给好友