小红花·文摘

本研究提出了一种新的视频时刻拼接任务，旨在简化短视频编辑中的片段选择与拼接过程。通过文本-视频多粒度整合方法，有效融合文本与视频特征，实现内容与描述的精确对齐，并提供了大规模数据集MSSD以验证框架的有效性。