本文研究了模型在强化学习算法中的使用,提出了一种基于模型的算法,并探讨了模型在策略优化中的作用。作者展示了一种简单的方法,使用短模型生成滚动数据,具有比其他方法更好的样本效率,并能处理其他算法不能处理的问题。
完成下面两步后,将自动完成登录并继续当前操作。