在Terminal Bench 2.0上评估DeepAgents CLI
DeepAgents CLI是基于Deep Agents SDK的编码代理,支持终端交互和文件操作。通过Terminal Bench 2.0评估,DeepAgents CLI在89项任务中得分约42.5%,与Claude Code相当。Harbor框架提供隔离环境,支持自动化测试和评分,简化评估过程。
原文英文,约800词,阅读约需3分钟。
DeepAgents CLI是基于Deep Agents SDK的编码代理,支持终端交互和文件操作。通过Terminal Bench 2.0评估,DeepAgents CLI在89项任务中得分约42.5%,与Claude Code相当。Harbor框架提供隔离环境,支持自动化测试和评分,简化评估过程。