量子位 ·

LLM强化学习新框架！UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

UCSD研究团队提出PettingLLMs框架，实现了大语言模型的多智能体“群体强化”学习，工具调用能力提升5.8倍。该框架结合树状采样与角色化奖励机制，支持多智能体协作训练，显著提高任务表现，适用于医疗和编程等领域。实验结果显示，规划类任务性能从14%提升至96%。

🎯

关键要点

UCSD研究团队提出PettingLLMs框架，实现了大语言模型的多智能体群体强化学习。
该框架结合树状采样与角色化奖励机制，支持多智能体协作训练。
实验结果显示，规划类任务性能从14%提升至96%。
现有的LLM智能体训练框架主要针对单智能体，多智能体的群体强化学习仍需解决。
GRPO算法在多智能体环境中应用存在困难，需保证优势计算的公平性。
提出的树状采样方法平衡了探索与利用，确保多智能体的有效训练。
异步分发训练系统支持专属模型和共享模型的两种训练模式。
PettingLLMs框架开源，简化了多智能体强化学习的开发过程。
在多个任务中进行的大规模实验表明，框架显著提升了任务表现。
消融实验验证了关键设计的有效性，强调了多智能体协作的重要性。

❓

延伸问答

PettingLLMs框架的主要创新点是什么？

PettingLLMs框架实现了大语言模型的多智能体群体强化学习，结合树状采样与角色化奖励机制，显著提升了工具调用能力。

PettingLLMs框架在实验中表现如何？

在规划类任务中，性能从14%提升至96%，显示出显著的任务表现提升。

多智能体强化学习面临哪些挑战？

多智能体强化学习面临的挑战包括如何保证优势计算的公平性和有效性，以及如何处理不同智能体在多轮交互中的prompt差异。

PettingLLMs框架如何支持多智能体协作训练？

该框架通过异步分发训练系统，支持专属模型和共享模型的两种训练模式，促进多智能体的有效协作。

PettingLLMs框架的开源意义是什么？

开源使得多智能体强化学习的开发过程变得敏捷、简洁，促进了相关研究和应用的普及。

如何评估多智能体的训练效果？

通过消融实验和任务性能指标来评估训练效果，例如在不同任务中的准确率和学习回报。

🏷️

继续阅读

你的数据正在喂养 AI：从 Atlassian 公告，看科技平台的数据训练默认政策
Atlassian 宣布默认使用用户数据训练 AI，引发行业关注。许多平台如 ChatGPT 和 GitHub Copilot 也采取类似政策，用户数据默...
Hermes 15个隐藏skills神技：从8%到100%的能力释放！
本文介绍了Hermes智能体的15个隐藏功能，包括永久记忆、会话分析、快照备份和会话分支等，旨在帮助用户提升使用效率，充分挖掘其潜力。
“开发者的忠诚度现在为零”：谷歌不在乎你使用哪个AI编码工具
谷歌云高级总监Richard Seroter在采访中表示，开发者对谷歌的忠诚度为零，但谷歌致力于提供最佳的AI开发工具。他强调谷歌云希望成为所有代码运行的...
DeepSeek-V4 技术解析：架构革新与 Coding Agent 后训练优化
DeepSeek-V4技术通过架构创新和后训练优化，显著提升了长上下文处理能力。其混合注意力机制和流形约束超连接提高了效率与稳定性。后训练阶段采用专家培养...
Lovelace在隐秘中崭露头角，推出声称具备1000倍AI调查能力的上下文引擎
安德鲁·摩尔创立了Lovelace AI，推出了企业级上下文引擎Elemental，旨在解决高风险AI项目失败的核心原因。该系统通过预计算和缓存大量信息，...
流行的Go网页框架：开发者实用指南
根据2025年Go开发者调查，46%的Go开发者使用该语言构建网站。Go的标准库net/http提供了强大的基础，但许多开发者更倾向于使用框架以提高效率。...