小红花·文摘

本文提出了一种可伸缩的演员-评论家方法，解决了网络多智能体强化学习中的本地依赖问题。研究比较了三种多智能体深度强化学习算法的表现，并开源了EPyMARL和两个多智能体研究环境。通过创新架构和注意力机制，解决了学分分配问题。此外，提出了基于HyperAgent的框架和有效的情节记忆利用方法，以提高学习效率和性能。最后，针对离线多智能体强化学习的基准和评估协议不一致性问题，提出了改进方案。