美团技术团队 ·

行为正则化与顺序策略优化结合的离线多智能体学习算法

💡 原文中文，约5300字，阅读约需13分钟。

📝

内容提要

离线多智能体强化学习（MARL）旨在从预先收集的数据中学习最佳策略，但面临分布偏移和协调行为的挑战。中山大学与美团合作提出了样本内顺序策略优化（InSPO）算法，通过顺序更新策略，避免选择分布外动作，增强智能体的协调性。实验结果表明，InSPO在多个任务中表现优异，具有广泛的应用潜力。

🎯

关键要点

离线多智能体强化学习（MARL）旨在从预先收集的数据中学习最佳策略，面临分布偏移和协调行为的挑战。
中山大学与美团合作提出了样本内顺序策略优化（InSPO）算法，通过顺序更新策略，避免选择分布外动作，增强智能体的协调性。
InSPO算法保证了策略的单调改进，并收敛到量化响应均衡（QRE），在多个离线MARL任务中表现优异。
合作型马尔可夫博弈的基本概念和框架为多智能体系统的行为建模和优化提供了工具。
值分解方法通过将联合Q函数分解为个体Q函数，简化了计算过程，但在多模态奖励图谱中可能遇到困难。
行为正则化马尔可夫博弈通过引入正则化项，迫使学习策略接近行为策略，避免选择分布外动作。
InSPO结合逆KL散度和最大熵正则化，顺序更新每个智能体的策略，增强协调性和探索能力。
InSPO算法通过顺序更新优化每个智能体的策略，确保样本内学习，避免分布外动作的选择。
策略评估中采用局部Q函数近似，使用重要性重采样技术降低方差，提高训练稳定性。
实验结果表明，InSPO在多个复杂任务中表现优越，能够有效识别全局最优解。
消融研究显示，熵项和顺序更新对InSPO的性能至关重要，自动调节温度参数进一步提升性能。
未来研究方向包括算法扩展与优化、数据集增强与生成、多模态奖励图谱的应对及实际应用验证。

❓

延伸问答

什么是样本内顺序策略优化（InSPO）算法？

样本内顺序策略优化（InSPO）算法是一种离线多智能体强化学习算法，通过顺序更新每个智能体的策略，避免选择分布外动作，增强智能体之间的协调性。

InSPO算法如何解决分布外动作的问题？

InSPO算法通过逆KL散度进行行为正则化，确保学习到的策略与行为策略共享相同的支撑集，从而避免选择分布外的动作。

InSPO算法在实验中表现如何？

实验结果表明，InSPO在多个复杂任务中表现优越，能够有效识别全局最优解，尤其在不平衡数据集上展现出强大的全局最优解识别能力。

InSPO算法的主要贡献是什么？

InSPO算法的主要贡献在于避免了分布外联合动作，并通过探索低概率动作解决了提前收敛到次优解的问题，保证了策略的单调改进。

行为正则化马尔可夫博弈在InSPO中起什么作用？

行为正则化马尔可夫博弈通过引入正则化项，迫使学习策略接近行为策略，避免选择分布外动作，从而提高策略的稳定性。

未来InSPO算法的研究方向有哪些？

未来研究方向包括算法扩展与优化、数据集增强与生成、多模态奖励图谱的应对及实际应用验证。

🏷️