统一的频率辅助变压器框架用于多模态操作的检测和定位
原文中文,约300字,阅读约需1分钟。发表于: 。通过引入离散小波变换在多个频率子带中捕捉丰富的人脸伪造特征,并结合图像和频率特征的互补视角,提出了一种统一的频率辅助转换器框架(UFAFormer)来解决多模态媒体篡改问题。实验证明,与之前的方法相比,我们的框架在 DGM^4 数据集上表现出优越性能,并在该领域树立了新的基准。
UCFFormer是一种新的多模态融合架构,能够增强人类动作识别的性能。它使用统一Transformer来捕捉嵌入特征在时间和模态领域之间的相互依赖关系,并引入了分解的时间-模态注意力来高效执行自注意力。在两个流行数据集上进行的性能评估表明,UCFFormer实现了最先进的性能。