小红花·文摘

本研究提出了SpecTool基准，识别大型语言模型（LLMs）在工具使用任务中的错误模式。基准包含七种新表征错误模式的查询数据集，研究表明即使是最优秀的LLMs也存在这些错误，为研究者提供了错误缓解策略的分析与见解。