该研究提出了一种新的概率性课程学习算法,旨在解决强化学习中目标创建的挑战。通过将复杂行为分解为简单子任务,该方法促进了多模态策略的发展,提升了代理的学习能力。
完成下面两步后,将自动完成登录并继续当前操作。