本研究提出了多种基于图的深度学习方法,旨在提高多模态视频中的行动检测和图像融合性能。通过图卷积网络和特征融合,克服模态差异,显著提升了在多个基准测试中的表现,尤其在无监督域适应和医学图像融合任务中取得了优异结果。
本文介绍了一种新型一阶稀疏行动检测器STMixer,结合自适应特征采样和双分支特征混合模块,在多个数据集上表现优异。同时,研究提出了实时多动作本地化和分类的深度学习框架,利用SSD卷积神经网络实现高效检测,达到40fps的实时性能。整体上,该方法在多个基准测试中优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。