本文提出了一种新型强化学习算法,有效解决机器人任务中的样本需求问题。该算法通过学习Q值评价网络,从噪声轨迹中有效学习价值函数,尤其在复杂的人形控制任务中表现突出。
完成下面两步后,将自动完成登录并继续当前操作。