本文介绍了一种基于时序差分的训练目标和数据的方法,用于在未知任务条件下生成行为。该方法着重于测试时的零样本表现,通过任务参数的知识实现。实证评估表明,该方法比多任务和元RL方法的基线表现有显著提高。
完成下面两步后,将自动完成登录并继续当前操作。