小红花·文摘

本研究提出三种适用于合作、对抗和混合环境的演员-评论家算法，解决多智能体强化学习中去中心化训练的不足。通过引入网络通信和替代策略，去中心化算法在降低计算成本的同时，能与原始MADDPG算法达到相似效果，尤其在代理数量较多时更为明显。