3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

💡 原文中文,约2400字,阅读约需6分钟。
📝

内容提要

Video-XL-Pro模型由联合研究团队推出,突破了超长视频理解的瓶颈,单卡处理近万帧视频,准确率超过98%。该模型采用重构式token压缩技术,使用少量数据训练,性能超越多个7B模型,展现出卓越的长视频理解能力,已开源以促进相关研究。

🎯

关键要点

  • Video-XL-Pro模型由联合研究团队推出,突破了超长视频理解的瓶颈,单卡处理近万帧视频,准确率超过98%。
  • 该模型采用重构式token压缩技术,使用少量数据训练,性能超越多个7B模型。
  • Video-XL-Pro的核心在于重构性token压缩技术(ReCoT),通过自监督学习生成全面且紧凑的视频token。
  • ReCoT包含动态token合成器(DTS)和语义引导掩码(SGM),显著提升视频理解的效率和质量。
  • 模型引入查询选择器,增强对超长视频的理解能力,并提出视频数据集剪枝策略以提升训练效率。
  • 在多个主流视频理解评测基准上,Video-XL-Pro展现了卓越性能,超越了同参数量和7B模型。
  • 在视频「大海捞针」测试中,模型可以处理8192帧的输入,达到了近99%的准确率。
  • 在时间理解评测基准V-STaR中,Video-XL-Pro取得了25.07的mIoU得分,展现了卓越的长视频时间理解能力。
  • 该模型在多个长视频理解应用场景中具有广泛的应用价值,已开源以促进相关研究。

延伸问答

Video-XL-Pro模型的主要创新点是什么?

Video-XL-Pro模型的主要创新点是采用了重构式token压缩技术(ReCoT),通过自监督学习生成紧凑的视频token,显著提升了视频理解的效率和质量。

Video-XL-Pro在长视频理解方面的表现如何?

Video-XL-Pro在多个主流长视频理解评测基准上表现优异,准确率超过98%,并在MLVU和TempCompass等评测中获得第一名。

Video-XL-Pro如何处理超长视频?

Video-XL-Pro通过引入查询选择器和重构式token压缩技术,能够处理8192帧的输入,并在相同硬件条件下实现近99%的准确率。

Video-XL-Pro与7B模型相比有什么优势?

Video-XL-Pro在仅使用3B参数的情况下,性能超越了多个7B模型,包括Meta的Apollo-7B,展现出更高的效率和准确性。

Video-XL-Pro的训练数据需求如何?

Video-XL-Pro使用的训练数据相对较少,仅为1M,低于其他7B模型的训练数据需求,显示出其高效性。

Video-XL-Pro的开源情况如何?

Video-XL-Pro的模型、代码和训练数据均已开源,以促进长视频理解领域的研究和合作。

➡️

继续阅读