GENTLE是一种新算法,用于解决有限数据条件下学习可推广任务表征的问题。它利用Task Auto-Encoder来捕捉任务模型的生成结构,并通过构造伪转换来缓解行为多样性有限的影响。实证结果表明,GENTLE方法在分布内和分布外任务上明显优于现有的离线元强化学习方法。
本文介绍了离线元强化学习(OMRL)中的任务表示学习问题,并提出了一种硬采样策略来学习任务上下文编码器。实验结果表明,该技术可以得到更强壮的任务表示和更好的测试性能。
完成下面两步后,将自动完成登录并继续当前操作。