7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

新加坡南洋理工大学的LMMs-Lab团队与其他机构的研究人员共同开发了一种名为LongVA的长视频模型,能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中取得了很好的成绩。研究团队通过扩展语言模型的上下文能力,成功将这种能力传递到视觉模态上,无需进行长视频训练。他们还提出了一种名为Visual Needle-In-A-Haystack的基准测试,证明了LongVA在视觉大海捞针测试中的优秀表现。

🎯

关键要点

  • 新加坡南洋理工大学的LMMs-Lab团队与其他机构共同开发了LongVA长视频模型。

  • LongVA能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中表现优异。

  • 研究团队提出了长上下文迁移技术,使得多模态大模型能够在不进行长视频训练的情况下理解超长视频。

  • LongVA可以处理2000帧或超过20万个视觉token,在Video-MME榜单上实现了7B规模的SoTA。

  • LongVA采用短上下文训练和长上下文测试的策略,有效展示了长上下文迁移的现象。

  • 团队提出了Visual Needle-In-A-Haystack基准测试,LongVA在该测试中表现出色。

  • LongVA在V-NIAH测试中几乎全对,且在3000帧的尺度上也保持了不错的正确率。

  • 在Video-MME榜单上,LongVA排名第七,并达到了7B模型的SoTA。

  • 在MLVU基准测试中,LongVA仅次于GPT-4o,位列最强的开源模型。

延伸问答

LongVA模型的主要功能是什么?

LongVA模型能够处理超过千帧的视频数据,并在视频理解方面表现优异。

LongVA是如何实现长视频理解的?

LongVA通过长上下文迁移技术,将语言模型的上下文能力扩展到视觉模态,无需进行长视频训练。

LongVA在视频理解榜单上的表现如何?

LongVA在Video-MME榜单上排名第七,并在MLVU基准测试中仅次于GPT-4o,成为最强的开源模型。

Visual Needle-In-A-Haystack基准测试的目的是什么?

该测试旨在评估模型在长视频中定位特定图像的能力,类似于从大海捞针。

LongVA模型的训练策略是什么?

LongVA采用短上下文训练和长上下文测试的策略,先用短图像数据训练,再用长视频进行测试。

LongVA在处理长视频时面临哪些挑战?

主要挑战是视觉token数量过多和缺乏高质量的长视频数据集。

🏷️

标签

➡️

继续阅读