小红花·文摘

本研究使用多模态大型语言模型 (MLLM) 生成视频的文本描述，减少模态不平衡并提高时间定位准确性。通过时间对齐和特征融合，生成语义增强的视频表示序列用于查询定位。实验证明该方法有效。