本研究提出了MomentSeeker基准,旨在解决长视频理解中的时刻检索问题,涵盖超过500秒的视频,评估多种检索模型的表现,揭示现有方法的局限性,并通过多模态大语言模型取得显著成果。
完成下面两步后,将自动完成登录并继续当前操作。