7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

新加坡南洋理工大学的LMMs-Lab团队与其他机构的研究人员共同开发了一种名为LongVA的长视频模型,能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中取得了很好的成绩。研究团队通过扩展语言模型的上下文能力,成功将这种能力传递到视觉模态上,无需进行长视频训练。他们还提出了一种名为Visual Needle-In-A-Haystack的基准测试,证明了LongVA在视觉大海捞针测试中的优秀表现。

🎯

关键要点

  • 新加坡南洋理工大学的LMMs-Lab团队与其他机构共同开发了LongVA长视频模型。
  • LongVA能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中表现优异。
  • 研究团队提出了长上下文迁移技术,使得多模态大模型能够在不进行长视频训练的情况下理解超长视频。
  • LongVA可以处理2000帧或超过20万个视觉token,在Video-MME榜单上实现了7B规模的SoTA。
  • LongVA采用短上下文训练和长上下文测试的策略,有效展示了长上下文迁移的现象。
  • 团队提出了Visual Needle-In-A-Haystack基准测试,LongVA在该测试中表现出色。
  • LongVA在V-NIAH测试中几乎全对,且在3000帧的尺度上也保持了不错的正确率。
  • 在Video-MME榜单上,LongVA排名第七,并达到了7B模型的SoTA。
  • 在MLVU基准测试中,LongVA仅次于GPT-4o,位列最强的开源模型。
➡️

继续阅读