本研究提出了一种基于分层强化学习的双向任务-动作规划方法,旨在解决群体机器人在动态环境中的决策问题。实验结果显示,该方法在对抗中的胜率超过80%,决策时间低于0.01秒,展现出良好的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。