基于骨架的人体交互识别的双流混合 CNN-Transformer 网络
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种两流混合 CNN-Transformer 网络(THCT-Net),通过 CNN 和 Transformer 同时建模实体、时间和空间之间的关系,来更好地理解和推断各种动作的意义和上下文。
本文介绍了一种新的综合多模式网络(HIT),利用手部和姿态信息建模人、物和手部互动,并通过Attentive Fusion机制将特征相结合,提高行动分类准确性。该方法在多个数据集上优于先前方法,具有竞争性结果。