本研究提出了一种可扩展的开源视频基础模型(VFM)训练流程,旨在解决大规模、高质量视频模型训练中的挑战。该流程加速了视频数据集的策划,支持多模态数据加载,并实现了视频扩散模型的并行训练和推理,显著提升了训练效率和推理性能。
本文介绍了InternVideo2,一种新的视频基础模型,能够在动作识别、视频文本任务和以视频为中心的对话中实现最先进的性能。该模型通过渐进训练范式,统一了不同自我或弱监督学习框架,通过不同的预训练任务引导模型捕捉不同层次的结构和语义信息。实验证明该模型在与视频相关的字幕、对话和长期视频理解基准上优于其他模型。
完成下面两步后,将自动完成登录并继续当前操作。