本研究提出了SpecTool基准,识别大型语言模型(LLMs)在工具使用任务中的错误模式。基准包含七种新表征错误模式的查询数据集,研究表明即使是最优秀的LLMs也存在这些错误,为研究者提供了错误缓解策略的分析与见解。
完成下面两步后,将自动完成登录并继续当前操作。