在Terminal Bench 2.0上评估DeepAgents CLI

在Terminal Bench 2.0上评估DeepAgents CLI

LangChain Blog LangChain Blog ·

DeepAgents CLI是基于Deep Agents SDK的编码代理,支持终端交互和文件操作。通过Terminal Bench 2.0评估,DeepAgents CLI在89项任务中得分约42.5%,与Claude Code相当。Harbor框架提供隔离环境,支持自动化测试和评分,简化评估过程。

原文英文,约800词,阅读约需3分钟。
阅读原文