本研究提出了OmniRL,一种可推广的上下文强化学习模型,旨在通过元训练应对多样化任务。其创新之处在于利用行为策略的互动历史构建数据合成管道,并结合模仿学习与强化学习。研究结果表明,OmniRL能够通过上下文学习成功应对未见任务,展现出其潜在影响。
完成下面两步后,将自动完成登录并继续当前操作。