本研究探讨了多模态大型语言模型(MLLMs)在流媒体视频理解方面的不足。通过引入StreamingBench基准,评估了MLLMs在视觉理解和上下文理解等方面的能力。研究发现,现有模型在流媒体视频理解上的表现远低于人类水平,为未来研究提供了方向。
完成下面两步后,将自动完成登录并继续当前操作。