本文介绍了一种基于自监督回归学习的深度强化学习算法(SSRL),该算法无需策略梯度或价值估计,通过监督回归数据提升策略表现。同时探讨了目标条件强化学习的挑战,提出了Weighted GCSL和DGRL等新方法,以优化目标达成和探索效率。此外,研究了无监督框架在无标签数据中的应用,展示了其在模拟机器人任务中的优越性能。
本文探讨了利用因果图增强目标条件强化学习的方法,提出了一个结合因果发现、模型转换和策略训练的优化框架,以提升代理的推理和泛化能力。同时,研究介绍了新的内在奖励方法“因果好奇心”,通过自我监督学习发现环境因果关系,并在多项任务中验证了其有效性。
该研究比较了模仿学习和目标条件强化学习两种方式,并提出了一种基于概率长期动态和期望价值函数之间联系的方法。该方法在目标条件强化学习和模仿学习方面都表现出高效和最新样本效率。
完成下面两步后,将自动完成登录并继续当前操作。