量子位 ·

Agent太火！这篇综述让你不把知识学杂了丨华东师大&东华大学出品

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

华东师大与东华大学的研究综述分析了大模型智能体的优化方法，分为参数驱动和无关参数两类。参数驱动方法包括微调和强化学习，无关参数方法则通过Prompt和工具调用来优化智能体行为。研究总结了LLM智能体在多个领域的应用及面临的挑战，强调了优化的重要性及未来研究方向。

🎯

🔎

文章将大模型智能体的优化方法分为参数驱动和无关参数两类。参数驱动方法如微调和强化学习，强调通过调整模型参数来提升性能；而无关参数方法则通过Prompt工程和工具调用等手段，在不改变模型参数的情况下优化智能体行为。这种分类有助于研究者根据具体需求选择合适的优化策略。

尽管LLM智能体在多个领域展现出潜力，但仍面临诸多挑战，如长程规划能力不足和缺乏持续性记忆机制。这些问题可能导致在复杂任务中出现错误，限制了其在实际应用中的表现。因此，研究者需关注如何提升智能体的适应能力和决策质量，以应对动态环境的变化。

文章指出，未来的研究应集中在数据偏差、算法效率和跨任务迁移等问题上。尤其是数据质量对智能体性能的影响，如何构建稳健的数据基础将是关键。此外，缺乏统一的评估标准也使得不同任务间的比较变得困难，建立标准化评估体系将推动该领域的发展。

❓

大模型智能体的优化方法分为参数驱动和无关参数两类，前者包括微调和强化学习，后者通过Prompt工程和工具调用等方式优化行为。

参数驱动的优化方法包括高质量轨迹数据构建、数据评估与过滤、低质量样本的利用等步骤。

无关参数的优化方法不涉及模型权重更新，适合资源受限或轻量部署场景，展现出强大潜力。

LLM智能体在实际应用中面临数据偏差、算法效率与适应性、跨任务迁移难、缺乏统一评估标准等挑战。

强化学习让LLM智能体能够在环境中探索行为、接受奖励与惩罚，动态调整策略，从而实现主动学习。

未来研究方向包括数据偏差问题、算法效率与适应性、跨任务迁移难、缺乏统一评估标准等。

🏷️