本文介绍了一种名为DSPG的最大熵深度强化学习算法,该算法结合了基于熵正则化的期望回报目标和软Bellman方程,采用双重采样方法以提高学习的稳定性,解决了大规模离线数据训练和高维动作状态的问题。DSPG在多个强化学习任务中表现优异,展示了熵正则化技术对学习性能的积极影响。
完成下面两步后,将自动完成登录并继续当前操作。