本文研究了函数逼近的时序差分学习论(TD)可能会收敛至比蒙特卡罗回归更劣的解的问题,以及逼近误差在自举更新中如何进一步扩散的问题。作者证明了泄漏传播的存在,但并不意味着一定会发生,也测试了通过更好的状态表示是否可以缓解这个问题。最后,作者探讨了在无奖励或特权信息的情况下进行学习的可能性。
本研究探讨了函数逼近的时序差分学习论(TD)的问题,发现了泄漏扩散的证据,并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题,并在无奖励或特权信息的情况下进行学习。
完成下面两步后,将自动完成登录并继续当前操作。