基于字幕基础模型的少样本动作识别

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一种基于CapFSAR框架的视觉文本聚合模块,能够在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中,该方法表现优于现有方法,并达到了最先进的性能。

🎯

关键要点

  • 该文介绍了一种基于CapFSAR框架的视觉文本聚合模块。

  • 该模块能够在低样本情况下实现更全面的分类。

  • 通过预训练的多模态基础模型提取视觉特征和相关文本嵌入。

  • 设计了基于Transformer的视觉文本聚合模块。

  • 在多个标准的少样本基准实验中,该方法表现优于现有方法。

  • CapFSAR方法达到了最先进的性能。

➡️

继续阅读