该文介绍了一种基于3D卷积神经网络的方法,通过使用多个模态的数据来训练单模态网络,提高手势识别性能。该方法引入了空间时间语义对齐的损失函数和正则化参数,避免直接融合多个模态。实验结果表明,该框架提高了单模态网络的测试时间识别准确性,并在各种动态手势识别数据集上提供了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。