小红花·文摘

微软亚洲研究院（MSRA）的Vid-ICL团队提出了视频上下文学习（Vid-ICL）方法，通过示例视频生成一致任务的大模型。使用Transformer结构和自回归方式训练，实验结果显示Vid-ICL在视频质量和语义一致性方面优于基准模型。该方法可与模拟器结合，实现与真实环境的交互。