小红花·文摘

本研究提出了MomentSeeker基准，旨在评估长视频时刻检索模型的表现。该基准涵盖超过500秒的视频，展示了现有方法的局限性，并通过微调的多模态大语言模型取得显著成果，推动了该领域的研究进展。

BriefGPT - AI 论文速递 ·

本文提出了一种大型语言模型引导的时刻检索方法，旨在改善视频上下文表示和跨模态对齐，从而提升目标时刻定位的准确性。通过利用多模态大型语言模型的视觉文本理解能力，生成视频文本描述并进行时间对齐，显著提高了检索效果。研究表明，该方法在视频理解任务中表现优异，为多模态分类提供了新方向。

BriefGPT - AI 论文速递 ·