💡
原文中文,约5300字,阅读约需13分钟。
📝
内容提要
离线多智能体强化学习(MARL)旨在从预先收集的数据中学习最佳策略,但面临分布偏移和协调行为的挑战。中山大学与美团合作提出了样本内顺序策略优化(InSPO)算法,通过顺序更新策略,避免选择分布外动作,增强智能体的协调性。实验结果表明,InSPO在多个任务中表现优异,具有广泛的应用潜力。
🎯
关键要点
- 离线多智能体强化学习(MARL)旨在从预先收集的数据中学习最佳策略,面临分布偏移和协调行为的挑战。
- 中山大学与美团合作提出了样本内顺序策略优化(InSPO)算法,通过顺序更新策略,避免选择分布外动作,增强智能体的协调性。
- InSPO算法保证了策略的单调改进,并收敛到量化响应均衡(QRE),在多个离线MARL任务中表现优异。
- 合作型马尔可夫博弈的基本概念和框架为多智能体系统的行为建模和优化提供了工具。
- 值分解方法通过将联合Q函数分解为个体Q函数,简化了计算过程,但在多模态奖励图谱中可能遇到困难。
- 行为正则化马尔可夫博弈通过引入正则化项,迫使学习策略接近行为策略,避免选择分布外动作。
- InSPO结合逆KL散度和最大熵正则化,顺序更新每个智能体的策略,增强协调性和探索能力。
- InSPO算法通过顺序更新优化每个智能体的策略,确保样本内学习,避免分布外动作的选择。
- 策略评估中采用局部Q函数近似,使用重要性重采样技术降低方差,提高训练稳定性。
- 实验结果表明,InSPO在多个复杂任务中表现优越,能够有效识别全局最优解。
- 消融研究显示,熵项和顺序更新对InSPO的性能至关重要,自动调节温度参数进一步提升性能。
- 未来研究方向包括算法扩展与优化、数据集增强与生成、多模态奖励图谱的应对及实际应用验证。
➡️