小红花·文摘

本文研究了多智能体强化学习中的信用分配问题，提出了新算法CoPPO和IA-MAPPO，以提高多智能体系统的效率和稳定性。实验结果表明，这些算法在合作任务中表现优异，显著降低了通信开销，改善了决策能力。