小红花·文摘

本研究提出了一种基于多模态大语言模型（M-LLM）的轻量级视频帧选择方法，旨在解决长视频中重要信息丢失的问题。通过自适应选择与用户查询相关的帧，并利用空间和时间监督信号进行训练，实验证明该方法显著提升了视频问答的性能。