小红花·文摘

本文探讨了多智能体强化学习中的模型基础方法，提出了自适应对手推演策略优化（AORPO）和去中心化算法MATRPO，旨在提高样本效率和策略优化。这些方法在合作与竞争任务中表现优越，有效解决多智能体控制中的挑战，提升数据效率和性能。