实时循环强化学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了KF-RTRL算法,使用Kronecker分解逼近梯度,可用于学习长期依赖性的任务。实验结果表明,KF-RTRL算法在一些任务上与TBPTT算法性能相当,是TBPTT的有前途的替代方法。
🎯
关键要点
-
提出了一种使用 Kronecker 分解逼近梯度的 KF-RTRL 算法。
-
理论分析表明引入的噪音稳定,且渐近比 UORO 算法小。
-
KF-RTRL 是一个无偏差和内存高效的在线学习算法,适用于大型 RNNs。
-
KF-RTRL 算法可用于学习长期依赖性的任务。
-
实验结果显示 KF-RTRL 在一些任务上与 TBPTT 算法性能相当。
-
基于 RTRL 的方法可能是 TBPTT 的有前途的替代方法。
🏷️
标签
➡️