该论文提出了一种新的方法,利用多模态和预训练语言模型将离线强化学习转化为监督学习任务,通过结合图像状态信息和文本中的动作相关数据,提高了强化学习的训练性能和长期战略思维。实验证明该方法在 Atari 和 OpenAI Gym 环境中优于现有基准方法,提升离线强化学习的性能和效率,同时提供了一种新的离线强化学习视角。
完成下面两步后,将自动完成登录并继续当前操作。