基于字幕基础模型的少样本动作识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文介绍了一种基于CapFSAR框架的视觉文本聚合模块,能够在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中,该方法表现优于现有方法,并达到了最先进的性能。
🎯
关键要点
-
该文介绍了一种基于CapFSAR框架的视觉文本聚合模块。
-
该模块能够在低样本情况下实现更全面的分类。
-
通过预训练的多模态基础模型提取视觉特征和相关文本嵌入。
-
设计了基于Transformer的视觉文本聚合模块。
-
在多个标准的少样本基准实验中,该方法表现优于现有方法。
-
CapFSAR方法达到了最先进的性能。
➡️