本研究提出Mavors框架,旨在解决多模态大语言模型在长视频理解中的计算效率与细粒度时空模式保持之间的矛盾。通过多粒度视频表示方法,显著提升了复杂运动和不同分辨率视频的时空推理性能。
本研究提出了一种通过合成视频数据集学习有效视频表示的方法,发现合成视频与静态图像结合显著提升性能,并提供了可控的视频数据预处理方案。
本研究利用可微物理引擎在视频表示网络中学习物理潜在表示,采用监督与自监督学习方法,展示了从视频中识别物理属性的能力,并比较了两种方法的准确性。
本文介绍了LLaVA-Video-178K数据集,这是为视频指令跟随任务设计的高质量合成数据集。数据集包含视频描述、开放式问答和多项选择题,旨在提升视频多模态模型性能。通过在该数据集上训练,LLaVA-Video在多个视频基准上表现优异。其优势包括动态视频集合、高帧率和多样化任务。研究还开发了LLaVA-Video_SlowFast方法优化视频表示,实验结果显示其在多个评测集上表现出色。
本研究提出了Text-to-Video Person Retrieval (TVPR)任务,构建了TVPReid数据集,利用Bert获取字幕表示并研究字幕与视频表示之间的关系,通过融合视觉和运动表示为基础进行视频表示,提出了TVPR网络来解决人员在孤立帧中模糊或遗漏变量运动细节的挑战。在TVPReid数据集上,TVPRN获得了最佳性能表现。
该文介绍了一种新的学习方法MIL-NCE,用于从讲述视频中学习视频表示,无需手动注释。该方法在多个数据集上进行了评估,证明其优于已发表的自监督方法和多个全监督基准线的表现。
完成下面两步后,将自动完成登录并继续当前操作。