统一对比融合变压器用于多模态人类动作识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
UCFFormer是一种多模态融合架构,能够整合具有不同分布的数据以增强人类动作识别的性能。UCFFormer使用统一Transformer来捕捉嵌入特征在时间和模态领域之间的相互依赖关系,并引入了分解的时间-模态注意力来高效执行自注意力,在各种模态之间减少特征分布上的差异,从而生成在语义上对齐的特征进行信息融合。在两个流行数据集上进行的性能评估表明,UCFFormer实现了最先进的性能。
🎯
关键要点
- UCFFormer是一种多模态融合架构,增强人类动作识别性能。
- 使用统一Transformer捕捉嵌入特征在时间和模态领域的相互依赖关系。
- 引入分解的时间-模态注意力高效执行自注意力,减少特征分布差异。
- 生成语义上对齐的特征进行信息融合。
- 在UTD-MHAD和NTU RGB+D数据集上评估,UCFFormer实现最先进的性能。
🏷️
标签
➡️