通过结合具有示意性子目标的语言模型和模型回滚,我们提出了一种新的多模态的基于模型的强化学习方法,名为大语言模型梦境。该方法在具有挑战性任务中鼓励发现和达成目标,并在各种困难的、稀疏奖励的环境中进行了大量实验,显示出优于近期方法的性能提升。
完成下面两步后,将自动完成登录并继续当前操作。