小红花·文摘

本文介绍了一种基于常识感知的跨模态对齐框架，旨在提高视频时间定位的精确度和效率。该方法通过结构化语义信息提取和跨模态交互模块，在多个数据集上超越了现有技术。此外，研究提出了CONE、Mug-STAN和TOPA等新方法，在视频-语言对齐和分析中取得了显著成果，推动了多模态大语言模型的发展。