小红花·文摘

本文介绍了一种名为DSPG的最大熵深度强化学习算法，该算法结合了基于熵正则化的期望回报目标和软Bellman方程，采用双重采样方法以提高学习的稳定性，解决了大规模离线数据训练和高维动作状态的问题。DSPG在多个强化学习任务中表现优异，展示了熵正则化技术对学习性能的积极影响。