微软亚洲研究院(MSRA)的Vid-ICL团队提出了视频上下文学习(Vid-ICL)方法,通过示例视频生成一致任务的大模型。使用Transformer结构和自回归方式训练,实验结果显示Vid-ICL在视频质量和语义一致性方面优于基准模型。该方法可与模拟器结合,实现与真实环境的交互。
完成下面两步后,将自动完成登录并继续当前操作。