缩小差距:一个统一的视频理解框架用于时刻检索和重点检测
原文中文,约200字,阅读约需1分钟。发表于: 。提出了一种统一视频理解框架 (UVCOM),通过深入挖掘内在的本质特点,联合解决视频片段检索和重点片段检测问题。在多粒度的内部和跨模态的进步集成中,通过多方面对比学习,实现了对视频进行全面理解,成功地提高了效果。
本文介绍了一种名为HAMMER的HierArchical Multi-Modal EncodeR模型,通过编码视频的粗略片段和细粒度帧级别,从多个子任务中提取不同尺度的信息,解决了未处理和未分段视频中定位未定义段的问题。实验结果表明,该方法优于以前的方法和强基线,是该任务的新的最佳方法。