LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

量子位 量子位 ·

UCSD研究团队提出PettingLLMs框架,实现了大语言模型的多智能体“群体强化”学习,工具调用能力提升5.8倍。该框架结合树状采样与角色化奖励机制,支持多智能体协作训练,显著提高任务表现,适用于医疗和编程等领域。实验结果显示,规划类任务性能从14%提升至96%。

原文中文,约2700字,阅读约需7分钟。
阅读原文