本研究提出了一种基于多模态大语言模型(M-LLM)的轻量级视频帧选择方法,旨在解决长视频中重要信息丢失的问题。通过自适应选择与用户查询相关的帧,并利用空间和时间监督信号进行训练,实验证明该方法显著提升了视频问答的性能。
TKD是一种新的框架,利用深度神经网络模型选择视频帧来蒸馏轻量级模型中的时间知识。通过关键帧选择和教师束缚损失设计,TKD在目标检测准确度和速度方面有显著提高。
完成下面两步后,将自动完成登录并继续当前操作。