SpikMamba:事件驱动的人的动作识别中的脉冲神经网络与Mamba的结合
内容提要
本文介绍了基于事件相机的人类活动识别研究,重点包括新数据集HARDVS和DailyDVS-200,以及ESTF框架和EVMamba网络的应用,展示了在动作识别和目标检测中的高效性能和低能耗优势。
关键要点
-
提出了大规模基准数据集HARDVS,填补基于事件相机的人类活动识别领域的数据空缺。
-
引入了ESTF框架,结合STEMNET和Transformer矩阵计算,有效学习和推断人类活动。
-
利用事件相机和脉冲神经网络实现基于事件的面部表情识别,能耗仅为传统神经网络的1/65。
-
提出了PokerEvent数据集,促进事件相机模式识别的发展。
-
基于视频变换网络和事件对比损失的模型在行为识别任务中表现出卓越性能,计算时间更低。
-
提出了Spiking Fusion Object Detector (SFOD),在目标检测中实现多尺度特征图的融合,展示了SNN的潜力。
-
引入DailyDVS-200数据集,涵盖200个动作类别,为基于事件的动作识别提供坚实基础。
-
总结了卷积神经网络和视觉Transformer的发展,探讨了混合方法的潜在优势。
-
提出高分辨率CeleX-HAR数据集,包含150种动作类别和124,625个视频序列,提升动作识别性能。
延伸问答
HARDVS数据集的主要特点是什么?
HARDVS是一个大规模基准数据集,旨在填补基于事件相机的人类活动识别领域的数据空缺。
ESTF框架如何提高人类活动的学习和推断能力?
ESTF框架结合了STEMNET和Transformer矩阵计算,有效地学习和推断人类活动。
脉冲神经网络在面部表情识别中的能耗优势是什么?
脉冲神经网络的能耗仅为传统神经网络的1/65,表现出显著的能效优势。
DailyDVS-200数据集的用途是什么?
DailyDVS-200数据集为基于事件的动作识别提供了坚实基础,涵盖200个动作类别和超过22,000个事件序列。
Spiking Fusion Object Detector (SFOD)的主要功能是什么?
SFOD是一种基于SNN的目标检测方法,能够在事件相机中实现多尺度特征图的融合。
CeleX-HAR数据集的特点和规模如何?
CeleX-HAR是一个高分辨率数据集,包含150种动作类别和124,625个视频序列,旨在提升动作识别性能。