混合 Q- 函数:用于连续动作领域的合作 MARL 中推进基于价值的方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种MARL的通用价值函数分解方法QFree,通过优势函数和混合网络结构满足等价分解,验证了其在复杂环境中的有效性和性能达到最新水平。
🎯
关键要点
- 提出了一种MARL的通用价值函数分解方法QFree。
- QFree基于优势函数开发了IGM原则的数学等价条件。
- 使用混合网络结构满足等价分解,具有更强的表达能力。
- 开发了一种新型损失函数,将等价条件作为正则化项应用于策略评估。
- 在复杂的MARL基准环境中验证了QFree的有效性,包括非单调矩阵博弈和Starcraft Multi-Agent Challenge (SMAC)。
- QFree在性能方面达到了最新水平。
🏷️
标签
➡️