辨识时差学习

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文研究了函数逼近的时序差分学习论(TD)可能会收敛至比蒙特卡罗回归更劣的解的问题,以及逼近误差在自举更新中如何进一步扩散的问题。作者证明了泄漏传播的存在,但并不意味着一定会发生,也测试了通过更好的状态表示是否可以缓解这个问题。最后,作者探讨了在无奖励或特权信息的情况下进行学习的可能性。

🎯

关键要点

  • 研究了函数逼近的时序差分学习论(TD)可能收敛至比蒙特卡罗回归更劣的解的问题。

  • 探讨了价值函数在急剧不连续处的逼近误差在自举更新中如何进一步扩散的问题。

  • 通过实证找到了泄漏扩散的证据,证明仅当逼近误差存在时,这种情况会出现。

  • 泄漏传播的存在是基于Tsitsiklis和Van Roy的研究,但并不意味着一定会发生。

  • 测试了通过更好的状态表示是否可以缓解泄漏传播的问题。

  • 探讨了在无奖励或特权信息的情况下进行学习的可能性。

➡️

继续阅读