SUB-PLAY: 针对部分观测多智能体强化学习系统的对抗性策略
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种新的状态对抗性马尔可夫博弈模型,解决了现有方法在状态不确定性下的问题,并提出了一种新的鲁棒性算法RMA3C。实验结果显示该算法对状态扰动的鲁棒性更高。
🎯
关键要点
- 提出了一种新的状态对抗性马尔可夫博弈模型。
- 基于最坏情况下预期状态价值最大的状态强化学习策略。
- 解决了现有方法在状态不确定性下的问题。
- 提出了一种新的鲁棒性算法RMA3C。
- 证明了有限状态有限行动空间下稳健代理策略的存在性。
- 实验结果显示该算法对状态扰动的鲁棒性更高。
➡️