UMMAFormer:一种用于时间伪造定位的通用多模式自适应 Transformer 框架
原文中文,约300字,阅读约需1分钟。发表于: 。提出 UMMAFormer,一种新颖的通用 Transformer 框架,用于时序伪造定位,通过多模态适应预测伪造段,包括引入基于时序特征重建的时序特征异常关注模块(TFAA)以增强时序差异的检测,设计用于微妙特征增强的平行交叉关注特征金字塔网络(PCA-FPN),并构建适用于视频修复场景的新型时序视频修复定位(TVIL)数据集,实验结果表明我们的方法在众多基准数据集上取得了最优性能。
本文介绍了一种基于transformers的追踪框架MixFormer,通过Mixed Attention Module实现特征提取和目标信息集成的同步建模。设计了两种类型的MixFormer追踪器,使用不同的预训练方法,提出了减少计算成本的不对称注意机制和有效的得分预测模块。在七个追踪基准中创造了最新的性能标准。