小红花·文摘

本文介绍了VideoStreaming，一种用于视频理解的先进视觉语言模型VideoLLM。该模型通过编码和选择视频标记，实现对视频的流式理解。研究表明，VideoLLM在视频理解任务中表现优越，具备良好的可扩展性和多功能性，能够处理长视频并超越传统模型的限制，展示了在多个数据集上的先进性能。