本研究提出了OmniRL,一种可推广的上下文强化学习模型,通过对数十万个多样化任务进行元训练,展示了其在未见任务中的有效性。该模型创新性地结合了模仿学习与强化学习,构建了高效的数据合成管道。
完成下面两步后,将自动完成登录并继续当前操作。