本文提出了一种新型强化学习算法,旨在解决机器人任务中对训练样本需求大的问题。该算法通过学习动作序列的Q值评价网络,从噪声轨迹中有效学习价值函数,尤其在复杂的人形控制任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。