本文介绍了一种结合时间变化的线性高斯策略的强化学习方法,通过模型有关算法与模型无关框架相结合,提高实时机器人应用的模型效率和数据效率。该方法可以解决具有挑战性的操作任务,表现与模型无关方法相比具有可比性或更好的表现,同时保持模型有关方法的样本效率。
完成下面两步后,将自动完成登录并继续当前操作。