我们研究了高维连续动作空间中的强化学习,提出了一种基于潜变量的多模式策略框架,并开发了重新参数化策略梯度方法。该方法结合多模式策略和学习的世界模型,提高了探索能力和数据利用率。实验显示,该方法在不同奖励任务中表现优于以往方法。
完成下面两步后,将自动完成登录并继续当前操作。