小红花·文摘

本文介绍了一种基于时序差分的训练目标和数据的方法，用于在未知任务条件下生成行为。该方法着重于测试时的零样本表现，通过任务参数的知识实现。实证评估表明，该方法比多任务和元RL方法的基线表现有显著提高。