零样本基于骨架的动作识别的信息补偿框架
💡
原文中文,约1600字,阅读约需4分钟。
📝
内容提要
本文提出了一种新方法用于基于骨架的零样本动作识别(STAR),通过对骨架和语义空间的对齐,提升了高相似动作类别的区分能力。实验结果表明,该方法在多个数据集上表现优异,特别是在广义零样本动作识别(GZSSAR)中,利用多语义融合模型显著提高了性能。
🎯
关键要点
- 提出了一种新方法用于基于骨架的零样本动作识别(STAR),通过对骨架和语义空间的对齐,提升高相似动作类别的区分能力。
- 在 NTU RGB+D、NTU RGB+D 120 和 PKU-MMD 数据集上进行了广泛实验,结果显示该方法在 ZSL 和 GZSL 设置上取得了最先进的性能。
- 提出的多语义融合模型显著提高了广义零样本基于骨骼的动作识别(GZSSAR)性能,利用类级文本描述作为辅助语义信息。
- 通过预训练的语言编码器和骨骼编码器提取动作类别和骨骼特征,并利用变分自动编码器(VAE)学习跨模态对齐。
- 在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别,MSF 模型在 GZSSAR 上表现出卓越的性能。
❓
延伸问答
什么是零样本基于骨架的动作识别(STAR)?
零样本基于骨架的动作识别(STAR)是一种新方法,通过对骨架和语义空间的对齐,提升高相似动作类别的区分能力。
该方法在实验中表现如何?
该方法在NTU RGB+D、NTU RGB+D 120和PKU-MMD数据集上表现优异,特别是在广义零样本动作识别(GZSSAR)中取得了最先进的性能。
多语义融合模型的作用是什么?
多语义融合模型通过类级文本描述作为辅助语义信息,显著提高了广义零样本基于骨骼的动作识别(GZSSAR)的性能。
如何实现骨架和语义特征的对齐?
通过预训练的语言编码器和骨骼编码器提取特征,并利用变分自动编码器(VAE)学习跨模态对齐。
在GZSSAR中如何预测样本类别?
在GZSSAR中采用看见未见分类门来预测样本是否来自已知动作类别。
该研究的主要贡献是什么?
该研究提出了一种新方法和多语义融合模型,显著提升了零样本基于骨架的动作识别性能,尤其是在高相似动作类别的区分上。
➡️