研究解决了非平稳强化学习中缺乏先验知识的问题。发现现有的MASTER算法在检测非平稳性时效果不佳,类似于随机重启算法。提出了一种新的随机重启基线算法,通过仿真实验验证其在快速变化检测方面更具鲁棒性,并持续优于MASTER算法。
完成下面两步后,将自动完成登录并继续当前操作。