本论文介绍了一种针对不稳定、部分可观测环境下决策的在线隐藏表示学习方法。提出的DHTM算法能够捕捉序列数据关系,并对未来观察作出累积预测,形成继承者表示。实验证明,DHTM算法在时序差异学习方面优于LSTM,并与类似RNN算法相当。DHTM是解决在线隐藏表示学习动态环境挑战的有前途的方法。
完成下面两步后,将自动完成登录并继续当前操作。