本文研究了基于进化博弈论思想的路径规划方法,解决了同质自主代理在未知随机环境中的问题。实验证明该方法在大空间中最小化路径长度方面胜过现有强化学习算法近30%,比深度强化学习方法快一个数量级,扩展性更好。同时证明了学到的政策在演化上是稳定的。
完成下面两步后,将自动完成登录并继续当前操作。