本文介绍了MAF的CodeAct能力,强调其通过将多步工具编排合并为一次代码执行,解决了工具往返成本、执行边界模糊和工具治理碎片化等问题。CodeAct由六个组件协作完成,确保执行的安全性和效率。建议逐步引入工具与审批,建立稳定的审批回路,以实现高效的执行与治理。
大型语言模型(LLM)代理能够执行广泛的操作,如调用工具和控制机器人,对解决现实世界的挑战具有巨大潜力。本研究提出使用可执行的Python代码将LLM代理的操作整合到统一的操作空间(CodeAct)中。CodeAct可以执行代码操作,并通过多轮交互根据新的观察动态修订先前的操作或发出新的操作。对17个LLM在API-Bank和新的基准测试中的广泛分析表明,CodeAct的性能优于广泛使用的替代方法(成功率高达20%)。CodeAct的良好性能激励我们构建一个开源的LLM代理,通过执行可解释的代码与环境交互,并使用自然语言与用户合作。为此,我们收集了一个包含7k多轮交互的指令调整数据集CodeActInstruct。我们展示了它可以与现有数据一起用于改进面向代理任务的模型,而不损害其通用能力。CodeActAgent是从Llama2和Mistral微调而来,与Python解释器集成,并针对使用现有库进行复杂任务(如模型训练)和自主自我调试进行了独特的定制。
完成下面两步后,将自动完成登录并继续当前操作。