该研究提出了延迟感知的马尔可夫决策过程的定义,并开发了一个模型驱动的强化学习框架。实验表明,该算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。
提出了延迟感知的马尔可夫决策过程的正式定义。
证明了该过程可以通过增强状态转化为标准 MDP。
开发了一个延迟感知的模型驱动强化学习框架。
该框架可以将多步延迟纳入学习到的系统模型中,无需进行学习。
实验表明,所提出的算法在训练和各种延迟时间系统之间具有更高的效率和可传递性。
完成下面两步后,将自动完成登录并继续当前操作。