小红花·文摘 - 小红花技术领袖俱乐部

本研究提出Mavors框架，旨在解决多模态大语言模型在长视频理解中的计算效率与细粒度时空模式保持之间的矛盾。通过多粒度视频表示方法，显著提升了复杂运动和不同分辨率视频的时空推理性能。

Multimodal Large Language Model with Multi-Granularity Video Representation

BriefGPT - AI 论文速递 ·

本研究探讨在不使用自然视频的情况下学习有效的视频表示。通过结合合成视频数据集与静态图像，发现其在多个数据集上表现优越，提供了一种可控的视频数据预处理方案。

无自然视频学习视频表示

BriefGPT - AI 论文速递 ·

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

突破视频多模态大模型瓶颈！「合成数据」立大功，项目已开源

机器之心 ·

该文介绍了一种新的学习方法MIL-NCE，用于从讲述视频中学习视频表示，无需手动注释。该方法在多个数据集上进行了评估，证明其优于已发表的自监督方法和多个全监督基准线的表现。

NurViD：护理过程活动理解的大规模专家级视频数据库

BriefGPT - AI 论文速递 ·

该文介绍了一种新的学习方法MIL-NCE，用于从讲述视频中学习视频表示，无需手动注释。该方法在多个数据集上进行了评估，证明其优于已发表的自监督方法和多个全监督基准线的表现。

从一段长的无标签视频中学习强大的图像编码器，ImageNet 是否值得？

BriefGPT - AI 论文速递 ·