基于显著性引导的DETR用于时刻检索和亮点检测
原文中文,约300字,阅读约需1分钟。发表于: 。现有的视频时刻检索和亮点检测方法无法有效对齐文本和视频特征,导致性能不佳。本文提出了一种新颖的架构,结合显著性引导的交叉注意力机制与混合DETR架构,显著提升了时刻检索和亮点检测的性能。此外,我们开发了InterVid-MR数据集用于预训练,实现了在多个基准上的最先进结果,提供了一个高效且可扩展的解决方案。
现有视频检索和亮点检测方法存在对齐问题,影响性能。本文提出结合显著性引导的交叉注意力机制与混合DETR架构的新方法,提升性能。使用InterVid-MR数据集预训练,在多个基准上取得先进结果,提供高效可扩展的解决方案。