小红花·文摘

本研究提出了一种任务感知虚拟训练（TAVT）算法，旨在解决元强化学习在分布外任务中的泛化问题。实验结果表明，TAVT在MuJoCo和MetaWorld环境中显著提高了泛化能力。