ExACT:基于语言引导的概念推理和不确定性估计,用于基于事件的动作识别及更多

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种简单而有效的语义感知少样本动作识别模型(SAFSAR),通过3D特征提取器和特征融合方案,以及余弦相似度分类,实现了更好的性能。该模型在五个少样本动作识别基准上进行了实验证明,显著提高了性能。

🎯

关键要点

  • 提出了一种简单而有效的语义感知少样本动作识别模型(SAFSAR)。
  • SAFSAR通过3D特征提取器和有效的特征融合方案实现更好的性能。
  • 模型使用简单的余弦相似度分类,无需复杂的距离函数和额外的时间建模组件。
  • SAFSAR以紧凑的方式编码文本语义,进行视频表示的自适应特征融合。
  • 鼓励视觉编码器提取更具语义一致性的特征。
  • 在五个少样本动作识别基准上进行的实验表明,SAFSAR显著提高了性能。
➡️

继续阅读