本研究提出了一种新方法,利用自适应漂移参数的奥恩斯坦-乌伦贝克过程,解决神经网络在非平稳分布下的学习问题。实验结果表明,该方法在监督学习和离线强化学习中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。