3D 张量在视频分析中是否真的需要 5D 卷积?
原文中文,约400字,阅读约需1分钟。发表于: 。本文提出了使用 2D 和 / 或 1D 卷积在只使用 4D 和 / 或 3D 张量的情况下实现 3D 卷积块的全面研究,并介绍了几种新颖的技术。实验结果表明,所提出的时空处理结构在速度和准确性方面优于原始模型,且仅使用 4D 张量具有更少的参数。
该研究提出了一种简单而有效的时空特征学习方法,通过使用训练的3D ConvNets在大规模监督视频数据集上进行实验。研究结果表明,3D ConvNets更适用于时空特征学习,且小的3x3x3卷积核的同构体系结构是最佳的。通过使用这种方法学到的特征(C3D)连同一个简单的线性分类器,在4个基准测试中优于最先进的方法,并与其他2个基准测试中的最佳方法相当。这些特征紧凑、计算效率高、简单易用且易于训练和使用。