本文提出了一种新颖的表示学习方法,通过度量状态转换距离自动生成辅助奖励,从而提升增强学习的效率和收敛稳定性。研究表明,该方法在多模态观察中有效提取稠密奖励,促进机器人任务的学习,加速收敛并改善学习效率。
完成下面两步后,将自动完成登录并继续当前操作。