本文介绍了一种新的视频动作识别框架TSN,利用时间段网络学习ConvNet模型,在HMDB51和UCF101数据集上表现优异。还提出了记忆增强网络和时空建模机制等改进方法,进一步提升了动作识别的效果和准确性。
本文介绍了一种名为S3Aug的视频数据增强方法,用于动作识别。该方法通过分割和标签转换,生成多样的视频,并通过移动中间特征来增强生成视频帧之间的时间连贯性。实验证明该方法在UCF101、HMDB51和Mimetics数据集上有效,尤其对于Mimetics数据集中的非上下文视频。
完成下面两步后,将自动完成登录并继续当前操作。