RiskQ:风险敏感的多智能体强化学习价值分解

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了 QFree 方法,一种基于优势函数的 MARL 通用价值函数分解方法,使用混合网络结构满足等价分解,并将等价条件作为正则化项开发了一种新型损失函数。在非单调矩阵博弈场景和 SMAC 等复杂 MARL 基准环境中验证了该方法的有效性,并展示了其在性能方面达到了最新水平。

🎯

关键要点

  • 提出了一种基于优势函数的 MARL 通用价值函数分解方法 QFree。
  • QFree 方法开发了 IGM 原则的数学等价条件。
  • 使用混合网络结构来满足等价分解,增强了表达能力。
  • 在策略评估过程中将等价条件作为正则化项,开发了新型损失函数。
  • 在非单调矩阵博弈场景和 SMAC 等复杂 MARL 基准环境中验证了该方法的有效性。
  • QFree 方法在性能方面达到了最新水平。
➡️

继续阅读