本文提出了一种新的在线强化学习方法,通过使用多样的过去轨迹作为指导,使得算法更快、更高效。实验结果表明,该方法在多样化探索和避免局部最优方面优于基准方法。
完成下面两步后,将自动完成登录并继续当前操作。