推进自主系统:动态任务分解、工具集成与新指标和数据集的评估 本研究解决了自主代理系统在动态任务分解和工具选择中的不足,提出了一种先进的代理框架,通过引入新评估指标和专门的数据集来增强系统性能。研究发现,异步和动态任务图分解显著提高了系统对复杂多步骤任务的响应能力和可扩展性,尤其强调了评估方法平衡结构性与操作性的重要性。 大型语言模型的进展推动了任务自动化,但缺乏标准基准。为此,提出了TaskBench,以评估LLM在任务分解、工具调用和参数预测方面的能力,实验结果显示其有效性和一致性高。 TaskBench 一致性 任务自动化 大型语言模型 数据集 评估