基于监督预训练的证明上下文强化学习中的变压器决策耠
原文中文,约400字,阅读约需1分钟。发表于: 。该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型,提出了两种训练方法并证明了其能近似实现专家算法,同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法,这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。
本文研究表明,使用合成数据进行预训练可以提高离线深度强化学习的性能,不需要大型语言语料库。使用一步马尔科夫链生成的数据进行预训练可以进一步提高性能。同时,使用简单的合成数据进行预训练也可以改善保守 Q 学习(CQL)的性能。这些结果表明预训练的重要性,并且预训练数据可以是合成的。