SA-DVAE:通过解耦可变自动编码器提升零样本基于骨骼的动作识别
原文中文,约300字,阅读约需1分钟。发表于: 。通过语义特征分离和具有总校正惩罚的模态特定变分自动编码器,我们的方法 SA-DVAE 解决了动作识别数据集中的不平衡问题,并在三个基准数据集上取得了优异的性能。
该研究提出了一种多语义融合模型,用于提高广义零样本基于骨骼的动作识别性能。该模型通过采集两种类级文本描述作为辅助语义信息,增强通用骨骼特征的学习能力。利用预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征,并通过生成模块学习骨骼和语义特征之间的跨模态对齐。最后,通过分类模块识别输入样本的动作类别,并采用分类门来预测样本是否来自已知动作类别。该模型在广义零样本基于骨骼的动作识别中表现出卓越性能。