时间差分学习中,针对错误设计的奖励的终止状态的故意低估价值函数

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究探讨了函数逼近的时序差分学习论(TD)的问题,发现了泄漏扩散的证据,并证明了只有在逼近误差时才会出现这种情况。通过改进状态表示来缓解问题,并在无奖励或特权信息的情况下进行学习。

🎯

关键要点

  • 本研究探讨了函数逼近的时序差分学习论(TD)的问题。
  • 发现了泄漏扩散的证据,证明了只有在逼近误差时才会出现这种情况。
  • 研究了价值函数在急剧不连续处的逼近误差在自举更新中的扩散问题。
  • 泄漏传播的理论来源于Tsitsiklis和Van Roy的研究,但并不意味着泄漏传播一定会发生。
  • 测试了通过改进状态表示来缓解泄漏传播的问题。
  • 研究了在无奖励或特权信息的情况下进行学习的可能性。
➡️

继续阅读