本研究提出了一种新方法,通过分离训练阶段提高深度强化学习的样本效率,结合Dropout Q-Functions算法,减少梯度更新次数,从而降低计算成本和训练时间。
完成下面两步后,将自动完成登录并继续当前操作。