本研究提出了一种去中心化策略网络,利用多智能体强化学习实现多无人机系统在动态场景中的时间最优运动规划。通过灵活的碰撞惩罚机制,平衡飞行效率与碰撞避免。实验结果显示,该方法在接近时间最优的同时,保持低碰撞率,并在实际应用中表现良好。
完成下面两步后,将自动完成登录并继续当前操作。