Apple Machine Learning Research ·

CodeAct：生成代码时表现更佳的LLM代理

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

大型语言模型（LLM）代理能够执行广泛的操作，如调用工具和控制机器人，对解决现实世界的挑战具有巨大潜力。本研究提出使用可执行的Python代码将LLM代理的操作整合到统一的操作空间（CodeAct）中。CodeAct可以执行代码操作，并通过多轮交互根据新的观察动态修订先前的操作或发出新的操作。对17个LLM在API-Bank和新的基准测试中的广泛分析表明，CodeAct的性能优于广泛使用的替代方法（成功率高达20%）。CodeAct的良好性能激励我们构建一个开源的LLM代理，通过执行可解释的代码与环境交互，并使用自然语言与用户合作。为此，我们收集了一个包含7k多轮交互的指令调整数据集CodeActInstruct。我们展示了它可以与现有数据一起用于改进面向代理任务的模型，而不损害其通用能力。CodeActAgent是从Llama2和Mistral微调而来，与Python解释器集成，并针对使用现有库进行复杂任务（如模型训练）和自主自我调试进行了独特的定制。

🎯

关键要点

大型语言模型（LLM）代理能够执行广泛的操作，如调用工具和控制机器人，具有解决现实世界挑战的潜力。
本研究提出使用可执行的Python代码将LLM代理的操作整合到统一的操作空间（CodeAct）中。
CodeAct可以执行代码操作，并通过多轮交互根据新的观察动态修订先前的操作或发出新的操作。
对17个LLM在API-Bank和新的基准测试中的分析表明，CodeAct的性能优于广泛使用的替代方法，成功率高达20%。
CodeAct的良好性能激励构建一个开源的LLM代理，通过执行可解释的代码与环境交互，并使用自然语言与用户合作。
为此，收集了一个包含7k多轮交互的指令调整数据集CodeActInstruct。
展示了CodeActInstruct可以与现有数据一起用于改进面向代理任务的模型，而不损害其通用能力。
CodeActAgent是从Llama2和Mistral微调而来，与Python解释器集成，针对复杂任务（如模型训练）和自主自我调试进行了定制。

❓

延伸问答

CodeAct的主要功能是什么？

CodeAct通过可执行的Python代码整合LLM代理的操作，能够执行代码操作并动态修订先前的操作。

CodeAct与其他LLM代理相比有什么优势？

CodeAct在API-Bank和新基准测试中的分析表明，其成功率比广泛使用的替代方法高出20%。

CodeActInstruct数据集的用途是什么？

CodeActInstruct数据集用于指令调整，包含7k多轮交互，可以与现有数据结合改进代理任务模型。

CodeActAgent是如何构建的？

CodeActAgent是从Llama2和Mistral微调而来，集成了Python解释器，专门针对复杂任务和自主自我调试进行了定制。

CodeAct如何与用户进行交互？

CodeAct通过执行可解释的代码与环境交互，并使用自然语言与用户合作。

LLM代理的潜力是什么？

LLM代理能够执行广泛的操作，如调用工具和控制机器人，具有解决现实世界挑战的巨大潜力。

🏷️