小红花·文摘

本文研究了函数逼近的时序差分学习论（TD）可能会收敛至比蒙特卡罗回归更劣的解的问题，以及逼近误差在自举更新中如何进一步扩散的问题。作者证明了泄漏传播的存在，但并不意味着一定会发生，也测试了通过更好的状态表示是否可以缓解这个问题。最后，作者探讨了在无奖励或特权信息的情况下进行学习的可能性。