小红花·文摘

本研究提出了一种基于多模态大语言模型（M-LLM）的轻量级视频帧选择方法，旨在解决长视频中重要信息丢失的问题。通过自适应选择与用户查询相关的帧，并利用空间和时间监督信号进行训练，实验证明该方法显著提升了视频问答的性能。

BriefGPT - AI 论文速递 ·

TKD是一种新的框架，利用深度神经网络模型选择视频帧来蒸馏轻量级模型中的时间知识。通过关键帧选择和教师束缚损失设计，TKD在目标检测准确度和速度方面有显著提高。

BriefGPT - AI 论文速递 ·