SA-DVAE:通过解耦可变自动编码器提升零样本基于骨骼的动作识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了一种多语义融合模型,用于提高广义零样本基于骨骼的动作识别性能。该模型通过采集两种类级文本描述作为辅助语义信息,增强通用骨骼特征的学习能力。利用预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征,并通过生成模块学习骨骼和语义特征之间的跨模态对齐。最后,通过分类模块识别输入样本的动作类别,并采用分类门来预测样本是否来自已知动作类别。该模型在广义零样本基于骨骼的动作识别中表现出卓越性能。
🎯
关键要点
- 提出了一种多语义融合模型,用于提高广义零样本基于骨骼的动作识别性能。
- 模型采集两种类级文本描述(动作描述和运动描述)作为辅助语义信息。
- 通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征。
- 利用基于变分自动编码器的生成模块学习骨骼和语义特征之间的跨模态对齐。
- 构建分类模块识别输入样本的动作类别,并预测样本是否来自已知动作类别。
- MSF模型在广义零样本基于骨骼的动作识别中表现出卓越性能。
➡️