RiskQ:风险敏感的多智能体强化学习价值分解
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了 QFree 方法,一种基于优势函数的 MARL 通用价值函数分解方法,使用混合网络结构满足等价分解,并将等价条件作为正则化项开发了一种新型损失函数。在非单调矩阵博弈场景和 SMAC 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。
🎯
关键要点
- 提出了一种基于优势函数的 MARL 通用价值函数分解方法 QFree。
- QFree 方法开发了 IGM 原则的数学等价条件。
- 使用混合网络结构来满足等价分解,增强了表达能力。
- 在策略评估过程中将等价条件作为正则化项,开发了新型损失函数。
- 在非单调矩阵博弈场景和 SMAC 等复杂 MARL 基准环境中验证了该方法的有效性。
- QFree 方法在性能方面达到了最新水平。
➡️