本文研究表明,使用合成数据进行预训练可以提高离线深度强化学习的性能,不需要大型语言语料库。使用一步马尔科夫链生成的数据进行预训练可以进一步提高性能。同时,使用简单的合成数据进行预训练也可以改善保守 Q 学习(CQL)的性能。这些结果表明预训练的重要性,并且预训练数据可以是合成的。
完成下面两步后,将自动完成登录并继续当前操作。