本研究提出了一种任务感知虚拟训练(TAVT)算法,旨在解决元强化学习在分布外任务中的泛化问题。实验结果表明,TAVT在MuJoCo和MetaWorld环境中显著提高了泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。