本研究使用多模态大型语言模型 (MLLM) 生成视频的文本描述,减少模态不平衡并提高时间定位准确性。通过时间对齐和特征融合,生成语义增强的视频表示序列用于查询定位。实验证明该方法有效。
完成下面两步后,将自动完成登录并继续当前操作。