通过知识传递,量化和比较强化学习算法在探索和学习方面的努力。使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度。提供关于强化学习算法的探索行为的洞见,并比较不同算法的探索行为。
完成下面两步后,将自动完成登录并继续当前操作。