基于模仿学习的替代多智体近端策略优化算法:面向整齐群体的追逐避让
原文中文,约300字,阅读约需1分钟。发表于: 。本论文提出了一种基于分散式模仿学习的多智能体代理近端策略优化(IA-MAPPO)算法,以灵活且经济高效的方式在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换,并利用分散化的形成控制器以降低通信开销和提高可伸缩性,同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了 IA-MAPPO...
本文提出了一种基于分散式模仿学习的多智能体代理近端策略优化算法,可在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换,并利用分散化的形成控制器以降低通信开销和提高可伸缩性,同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了该算法的有效性,并且广泛的消融实验显示了与中心化解决方案相当的性能,并显著降低了通信开销。