小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种自监督片段微调方法（SF²T），旨在提升视频大语言模型在细粒度理解方面的能力。通过利用视频特征进行训练，改善模型对视觉动态和细节的理解。同时，构建了新的基准数据集FineVidBench，以评估模型在场景和片段层面的表现，实验结果显示该方法显著提高了时空细节的捕捉和解释能力。

SF2T: Self-Supervised Fragment Fine-Tuning of Video Large Language Models for Fine-Grained Understanding

BriefGPT - AI 论文速递 ·

本研究提出PAVE框架，旨在提升视频大语言模型在新任务适应中的表现。通过轻量级适配器“补丁”，PAVE有效调整预训练模型以应对多模态任务，实验结果显示其在音视频问答和3D推理等任务上显著提升性能，且计算成本极低。

PAVE: Patching and Adapting Video Large Language Models

BriefGPT - AI 论文速递 ·

本文提出MASH-VLM，旨在解决视频大语言模型中的动作场景幻觉问题。通过引入DST-attention机制和Harmonic-RoPE，研究有效解耦时空特征，优化位置嵌入，减少错误预测。实验结果表明，MASH-VLM在基准测试中表现优异，具有良好的应用潜力。

MASH-VLM: Mitigating Action-Scene Hallucination in Video Large Language Models through Disentangled Spatial-Temporal Representations

BriefGPT - AI 论文速递 ·

本研究提出了一种名为时间标记器的视频大语言模型，旨在改善现有模型在时间定位方面的不足。该模型通过引入时间分隔符和AnyLength机制，有效处理短视频和长视频，评估结果显示其在视频理解领域具有显著潜力。

TimeMarker: A Versatile Video Large Language Model with Superior Temporal Localization Ability

BriefGPT - AI 论文速递 ·