本文探讨了元强化学习中的探索问题,提出了两种新算法:E-MAML和E-RL²。实验结果表明,这两种算法在重要任务的探索中表现优异,尤其是在“疯狂世界”和迷宫环境中。
完成下面两步后,将自动完成登录并继续当前操作。