本研究探讨了函数逼近的时序差分学习论(TD)的问题,发现了泄漏扩散的证据,并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题,并在无奖励或特权信息的情况下进行学习。
完成下面两步后,将自动完成登录并继续当前操作。