零样本基于骨架的动作识别的信息补偿框架

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本文提出了一种新方法用于基于骨架的零样本动作识别(STAR),通过对骨架和语义空间的对齐,提升了高相似动作类别的区分能力。实验结果表明,该方法在多个数据集上表现优异,特别是在广义零样本动作识别(GZSSAR)中,利用多语义融合模型显著提高了性能。

🎯

关键要点

  • 提出了一种新方法用于基于骨架的零样本动作识别(STAR),通过对骨架和语义空间的对齐,提升高相似动作类别的区分能力。
  • 在 NTU RGB+D、NTU RGB+D 120 和 PKU-MMD 数据集上进行了广泛实验,结果显示该方法在 ZSL 和 GZSL 设置上取得了最先进的性能。
  • 提出的多语义融合模型显著提高了广义零样本基于骨骼的动作识别(GZSSAR)性能,利用类级文本描述作为辅助语义信息。
  • 通过预训练的语言编码器和骨骼编码器提取动作类别和骨骼特征,并利用变分自动编码器(VAE)学习跨模态对齐。
  • 在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别,MSF 模型在 GZSSAR 上表现出卓越的性能。

延伸问答

什么是零样本基于骨架的动作识别(STAR)?

零样本基于骨架的动作识别(STAR)是一种新方法,通过对骨架和语义空间的对齐,提升高相似动作类别的区分能力。

该方法在实验中表现如何?

该方法在NTU RGB+D、NTU RGB+D 120和PKU-MMD数据集上表现优异,特别是在广义零样本动作识别(GZSSAR)中取得了最先进的性能。

多语义融合模型的作用是什么?

多语义融合模型通过类级文本描述作为辅助语义信息,显著提高了广义零样本基于骨骼的动作识别(GZSSAR)的性能。

如何实现骨架和语义特征的对齐?

通过预训练的语言编码器和骨骼编码器提取特征,并利用变分自动编码器(VAE)学习跨模态对齐。

在GZSSAR中如何预测样本类别?

在GZSSAR中采用看见未见分类门来预测样本是否来自已知动作类别。

该研究的主要贡献是什么?

该研究提出了一种新方法和多语义融合模型,显著提升了零样本基于骨架的动作识别性能,尤其是在高相似动作类别的区分上。

➡️

继续阅读