小红花·文摘

本文介绍了一种基于自监督回归学习的深度强化学习算法（SSRL），该算法无需策略梯度或价值估计，通过监督回归数据提升策略表现。同时探讨了目标条件强化学习的挑战，提出了Weighted GCSL和DGRL等新方法，以优化目标达成和探索效率。此外，研究了无监督框架在无标签数据中的应用，展示了其在模拟机器人任务中的优越性能。