循环超网络在元强化学习中的强大能力

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种基于时序差分的训练目标和数据的方法,用于在未知任务条件下生成行为。该方法着重于测试时的零样本表现,通过任务参数的知识实现。实证评估表明,该方法比多任务和元RL方法的基线表现有显著提高。

🎯

关键要点

  • 本文介绍了一种基于时序差分的训练目标和数据的方法。
  • 该方法用于在未知任务条件下生成行为,着重于测试时的零样本表现。
  • 通过任务参数的知识实现零样本表现。
  • 研究与元RL、上下文RL和迁移学习相关。
  • 技术方法基于将每个RL算法视为从MDP特定内容到近乎最优值函数和策略的映射。
  • 使用超网络来近似该映射,生成近乎最优值函数和策略。
  • 在某些条件下,该映射可以被视为监督学习问题。
  • 对从DeepMind Control Suite中的连续控制任务进行实证评估。
  • 该方法在零样本传递到新的奖励和过渡动态方面表现显著优于多任务和元RL方法的基线。
➡️

继续阅读