本研究提出了一种任务感知虚拟训练(TAVT)算法,旨在提升元强化学习在分布外任务中的泛化能力。通过度量表示学习和状态正则化,TAVT有效捕捉任务特征,减少估计误差。实验结果表明,该算法在MuJoCo和MetaWorld环境中显著提高了泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。