其他评估从现有基准(如BFCL)中提取并调整。对于编码任务,我们与Harbor集成,在沙箱环境中运行选定的数据集任务。许多评估是从头编写的,旨在观察孤立行为。
其他评估从现有基准(如BFCL)中提取并调整。
对于编码任务,我们与Harbor集成,运行选定的数据集任务。
在沙箱环境中运行类似Terminal Bench 2.0的任务。
许多评估是从头编写的,旨在观察孤立行为。
例如,测试read_file工具。
完成下面两步后,将自动完成登录并继续当前操作。