小红花·文摘

该论文提出了一种新的方法，利用多模态和预训练语言模型将离线强化学习转化为监督学习任务，通过结合图像状态信息和文本中的动作相关数据，提高了强化学习的训练性能和长期战略思维。实验证明该方法在 Atari 和 OpenAI Gym 环境中优于现有基准方法，提升离线强化学习的性能和效率，同时提供了一种新的离线强化学习视角。