多模型行为识别中利用互补信息的模态混合器

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

UCFFormer是一种新的多模态融合架构,能够整合不同分布的数据以增强人类动作识别的性能。它使用统一Transformer捕捉嵌入特征在时间和模态领域之间的相互依赖关系,并引入分解的时间-模态注意力来高效执行自注意力。在UTD-MHAD和NTU RGB+D两个数据集上的评估表明,UCFFormer超越了竞争方法,实现了最先进的性能。

🎯

关键要点

  • 提出了一种新的多模态融合架构 UCFFormer。
  • UCFFormer 能够整合具有不同分布的数据以增强人类动作识别的性能。
  • 使用统一 Transformer 捕捉嵌入特征在时间和模态领域之间的相互依赖关系。
  • 引入分解的时间-模态注意力来高效执行自注意力。
  • 减少特征分布上的差异,生成语义上对齐的特征进行信息融合。
  • 在 UTD-MHAD 和 NTU RGB+D 两个数据集上的评估表明,UCFFormer 超越了竞争方法,实现了最先进的性能。
➡️

继续阅读