小红花·文摘

本研究提出了MomentSeeker基准，旨在评估长视频时刻检索模型的表现。该基准涵盖超过500秒的视频，展示了现有方法的局限性，并通过微调的多模态大语言模型取得显著成果，推动了该领域的研究进展。