我们提出了一种名为进化策略梯度(EPG)的实验性元学习方法,能够演变学习代理的损失函数,从而使其在新任务上快速训练。使用EPG训练的代理在测试时能够成功完成未在训练中涉及的基本任务。
完成下面两步后,将自动完成登录并继续当前操作。