本研究提出了一种均方双重变差误差(MSBVE)算法,旨在解决跳跃状态下强化学习的鲁棒性和收敛性问题。研究结果表明,MSBVE在复杂环境中表现优于传统算法。
完成下面两步后,将自动完成登录并继续当前操作。