本文介绍了一种新的多模态转换器网络,用于检测未修剪视频中的动作。该网络利用多模态注意机制计算不同空间和动态模态组合之间的相关性,并提出了一种算法来纠正相机运动引起的动态变形。实验证明,该方法在多个基准测试上优于现有方法,并在新教育活动数据集上进行了比较实验。
完成下面两步后,将自动完成登录并继续当前操作。