本研究提出了一种基于多模态大语言模型(M-LLM)的轻量级视频帧选择方法,旨在解决长视频中重要信息丢失的问题。通过自适应选择与用户查询相关的帧,并利用空间和时间监督信号进行训练,实验证明该方法显著提升了视频问答的性能。
完成下面两步后,将自动完成登录并继续当前操作。