小红花·文摘

本文介绍了多种视频识别和动作识别模型，包括流式视频架构“Streaming Vision Transformer”和SlowFast网络，强调了它们在提取时空特征和提高识别准确度方面的优势。同时，研究了长视频变压器（LoViT）和基于Transformer的ViFiT模型在视频数据处理中的应用，展示了在不同任务中的性能提升。