本文探讨了元强化学习中的探索问题,提出了两种新算法:E-MAML和E-RL²。实验结果表明,这两种算法在重要任务的探索中表现优异,尤其是在“疯狂世界”和迷宫环境中。
本文探讨了元强化学习中的探索问题。
提出了两种新算法:E-MAML和E-RL²。
实验结果表明这两种算法在重要任务的探索中表现优异。
实验环境包括“疯狂世界”和迷宫环境。
完成下面两步后,将自动完成登录并继续当前操作。