小红花·文摘

本文提出了一种新型强化学习算法，旨在解决机器人任务中对训练样本需求大的问题。该算法通过学习动作序列的Q值评价网络，从噪声轨迹中有效学习价值函数，尤其在复杂的人形控制任务中表现优异。