小红花·文摘

通过结合具有示意性子目标的语言模型和模型回滚，我们提出了一种新的多模态的基于模型的强化学习方法，名为大语言模型梦境。该方法在具有挑战性任务中鼓励发现和达成目标，并在各种困难的、稀疏奖励的环境中进行了大量实验，显示出优于近期方法的性能提升。