LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

量子位 ·

UCSD研究团队提出PettingLLMs框架，实现了大语言模型的多智能体“群体强化”学习，工具调用能力提升5.8倍。该框架结合树状采样与角色化奖励机制，支持多智能体协作训练，显著提高任务表现，适用于医疗和编程等领域。实验结果显示，规划类任务性能从14%提升至96%。

PettingLLMs llm 任务表现多智能体工具调用群体强化学习

原文中文，约2700字，阅读约需7分钟。