小红花·文摘

本研究提出了OmniRL，一种可推广的上下文强化学习模型，通过对数十万个多样化任务进行元训练，展示了其在未见任务中的有效性。该模型创新性地结合了模仿学习与强化学习，构建了高效的数据合成管道。