本研究提出了一种自监督片段微调方法(SF²T),旨在提升视频大语言模型在细粒度理解方面的能力。通过利用视频特征进行训练,改善模型对视觉动态和细节的理解。同时,构建了新的基准数据集FineVidBench,以评估模型在场景和片段层面的表现,实验结果显示该方法显著提高了时空细节的捕捉和解释能力。
本研究提出PAVE框架,旨在提升视频大语言模型在新任务适应中的表现。通过轻量级适配器“补丁”,PAVE有效调整预训练模型以应对多模态任务,实验结果显示其在音视频问答和3D推理等任务上显著提升性能,且计算成本极低。
本文提出MASH-VLM,旨在解决视频大语言模型中的动作场景幻觉问题。通过引入DST-attention机制和Harmonic-RoPE,研究有效解耦时空特征,优化位置嵌入,减少错误预测。实验结果表明,MASH-VLM在基准测试中表现优异,具有良好的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。