开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
原文中文,约6200字,阅读约需15分钟。发表于: 。该文章介绍了Flash-VStream,一种针对长视频流的在线理解多模态大模型。通过STAR记忆机制,Flash-VStream实现了对长视频的高效记忆和理解能力。模型在多个长视频理解benchmark上表现优秀,并在CVPR'24长视频问答竞赛中获得冠军。研究团队还构建了一个面向在线视频流问答场景的数据集VStream-QA,用于评价模型的在线视频流理解能力。Flash-VStream的性能在准确率和可信度分数上优于其他方法。