小红花·文摘

本研究提出了一种新方法，通过分离训练阶段提高深度强化学习的样本效率，结合Dropout Q-Functions算法，减少梯度更新次数，从而降低计算成本和训练时间。