本文提出了一种基于注意力机制的体系结构来模拟未修剪视频中动作类之间的关系,并通过分支建模依赖性,提出了新的度量标准,并在数据集上展示了更好的性能。
该研究提出了一种基于1D时间卷积层的单次动作检测器(SSAD)网络,用于直接检测未修剪视频中的动作实例,提高检测精度。实验证明,在THUMOS 2014和MEXaction2的评估过程中,SSAD的mAP比其他系统增加了很多。
本文介绍了一种新的多模态转换器网络,用于检测未修剪视频中的动作。该网络利用多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出了一种算法来纠正相机运动引起的动态变形。实验证明,该方法在多个基准测试上优于现有方法,并在新教育活动数据集上进行了比较实验。
该研究提出了一种基于1D时间卷积层的单次动作检测器(SSAD)网络,用于直接检测未修剪视频中的动作实例,以提高检测精度。在两个具有挑战性的数据集上进行了广泛的实验,证明了SSAD的mAP比其他最先进的系统增加了很多。
完成下面两步后,将自动完成登录并继续当前操作。