💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
新加坡南洋理工大学的LMMs-Lab团队与其他机构的研究人员共同开发了一种名为LongVA的长视频模型,能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中取得了很好的成绩。研究团队通过扩展语言模型的上下文能力,成功将这种能力传递到视觉模态上,无需进行长视频训练。他们还提出了一种名为Visual Needle-In-A-Haystack的基准测试,证明了LongVA在视觉大海捞针测试中的优秀表现。
🎯
关键要点
- 新加坡南洋理工大学的LMMs-Lab团队与其他机构共同开发了LongVA长视频模型。
- LongVA能够处理超过千帧的视频数据,并在视频理解榜单和MLVU基准测试中表现优异。
- 研究团队提出了长上下文迁移技术,使得多模态大模型能够在不进行长视频训练的情况下理解超长视频。
- LongVA可以处理2000帧或超过20万个视觉token,在Video-MME榜单上实现了7B规模的SoTA。
- LongVA采用短上下文训练和长上下文测试的策略,有效展示了长上下文迁移的现象。
- 团队提出了Visual Needle-In-A-Haystack基准测试,LongVA在该测试中表现出色。
- LongVA在V-NIAH测试中几乎全对,且在3000帧的尺度上也保持了不错的正确率。
- 在Video-MME榜单上,LongVA排名第七,并达到了7B模型的SoTA。
- 在MLVU基准测试中,LongVA仅次于GPT-4o,位列最强的开源模型。
🏷️
标签
➡️