量子位 ·

视频上下文学习！大模型学会“照猫画虎”生成，结合模拟器还能精准控制真实环境交互，来自MSRA

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

微软亚洲研究院（MSRA）的Vid-ICL团队提出了视频上下文学习（Vid-ICL）方法，通过示例视频生成一致任务的大模型。使用Transformer结构和自回归方式训练，实验结果显示Vid-ICL在视频质量和语义一致性方面优于基准模型。该方法可与模拟器结合，实现与真实环境的交互。

🎯

关键要点

微软亚洲研究院提出视频上下文学习（Vid-ICL）方法，通过示例视频生成一致任务的大模型。
Vid-ICL使用Transformer结构和自回归方式训练，实验结果显示在视频质量和语义一致性方面优于基准模型。
该方法允许模型在新场景下模仿示例视频中的任务，增强了模型与现实世界的交互能力。
Vid-ICL框架以视频为基本单元，目标是生成与查询视频在感知上连贯且在语义上与示例视频一致的视频片段。
模型具有零样本能力，能够从连续视频片段中自发学习上下文推理能力。
Vid-ICL可以扩展到其他模态，如文本，通过预训练的语言模型将文本描述转换为潜在表示。
研究团队选择Ego4d和Kinetics-600作为主要训练数据源，增加视频内容的多样性。
实验结果表明，Vid-ICL在生成视频的质量和语义一致性上均超出基准模型，显示出良好的生成能力。

❓

延伸问答

什么是视频上下文学习（Vid-ICL）？

视频上下文学习（Vid-ICL）是一种通过示例视频指导大模型生成一致任务的视频生成方法。

Vid-ICL如何提高视频生成的质量和语义一致性？

Vid-ICL使用Transformer结构和自回归方式训练，实验表明其在视频质量和语义一致性方面优于基准模型。

Vid-ICL的零样本能力是什么？

Vid-ICL的零样本能力指模型能够从连续视频片段中自发学习上下文推理，而无需显式的上下文信息。

Vid-ICL如何与模拟器结合实现真实环境交互？

Vid-ICL可以与模拟器结合，通过生成视频和当前状态预测与环境的交互动作，从而实现精确控制。

Vid-ICL的训练数据来源是什么？

Vid-ICL主要使用Ego4d和Kinetics-600数据集，同时也加入了一小部分Webvid数据以增加视频内容的多样性。

Vid-ICL的实验结果如何？

实验结果显示，Vid-ICL在生成视频的质量和语义一致性上均超出基准模型，表现出良好的生成能力。

🏷️

继续阅读

原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
Christophe Pettus: All Your GUCs in a Row: data_checksums
A read-only preset, like block_size — SHOW data_checksums tells you whether t...
[MAF预定义ChatClient中间件-03]CachingChatClient——利用缓存省钱省时间 - Artech
CachingChatClient是一个中间件，用于缓存LLM调用结果，减少重复调用的时间和费用。它通过检查缓存返回相同输入的响应，若不存在则调用LLM并...
HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
别把 Go 写成 Java：毁掉项目从过度架构开始
本文探讨了Go语言开发中的过度架构问题，强调应避免复杂的目录结构和不必要的抽象。建议采用扁平化的项目结构，按业务能力划分包，减少内部依赖，保持代码简单易懂...