小红花·文摘

本研究提出了一种任务感知虚拟训练（TAVT）算法，旨在提升元强化学习在分布外任务中的泛化能力。通过度量表示学习和状态正则化，TAVT有效捕捉任务特征，减少估计误差。实验结果表明，该算法在MuJoCo和MetaWorld环境中显著提高了泛化能力。