基于目标的强化学习的概率性课程学习 该研究针对强化学习中目标创建的挑战,提出了一种新的概率性课程学习算法,旨在为强化学习代理在连续控制和导航任务中建议目标。这种方法通过系统性地将复杂行为分解为更简单的子任务,促进多模态策略的发展,具有提升代理学习能力的潜力。 该研究提出了一种新颖的概率性课程学习算法,旨在通过将复杂行为分解为简单子任务,提升强化学习代理在连续控制和导航任务中的学习能力。 子任务 导航任务 强化学习 概率性课程学习 连续控制