本文介绍了一种使用弱监督来自动区分任务子空间和无意义任务空间的方法,实现高效探索和捕捉状态间距离的表示形式。在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升,特别是在环境复杂性增加的情况下。
完成下面两步后,将自动完成登录并继续当前操作。