LoSA:用于缩放端到端时序动作定位的长短程适配器
内容提要
本文介绍了多种时间行为定位(TAL)方法的进展,包括LoFi视频编码器、TALLFormer和Re2TAL等,显著提升了模型性能。研究提出了正则化项IntraC和InterC,以适应潜在时间约束,实验结果优于现有技术。此外,基于Faster R-CNN的TAL-Net和少样本学习设置在多个数据集上表现最佳。
关键要点
-
提出了一种新的 LoFi 视频编码器预训练方法,通过减少时空分辨率的 mini-batch 组合来优化编码器,显著提高了 TAL 方法的性能。
-
TALLFormer 是一种内存高效的时间动作定位 Transformer 方法,减少了 GPU 内存消耗和训练时间。
-
Re2TAL 是基于可逆网络的端到端方法,通过网络重连机制提高模型训练效率,RGB 模态在 ActivityNet-v1.3 上达到 37.01% 的平均 mAP。
-
提出了 IntraC 和 InterC 两个正则化项,以适应潜在时间约束,实验结果优于现有技术。
-
基于 Faster R-CNN 的 TAL-Net 方法通过多尺度架构和特征融合改进了时间动作定位,表现优异。
-
少样本学习设置使用未剪裁视频动态适应新类别,显著优于现有方法。
-
TSA-Net 采用多扩张时间卷积块实现特定持续时间动作的时间响应场,达到了新的最佳表现。
-
提出的弱监督时间动作本地化方法在多个数据集上优于现有 WS-TAL 方法。
延伸问答
LoFi视频编码器的预训练方法有什么优势?
LoFi视频编码器通过减少时空分辨率的mini-batch组合来优化编码器,显著提高了时间行为定位(TAL)方法的性能。
TALLFormer的主要特点是什么?
TALLFormer是一种内存高效的时间动作定位Transformer方法,显著降低了GPU内存消耗和训练时间。
Re2TAL方法如何提高模型训练效率?
Re2TAL通过网络重连机制将预训练的视频模型转换为基于可逆模块的模型,从而提高模型训练效率。
IntraC和InterC正则化项的作用是什么?
IntraC和InterC正则化项用于适应潜在时间约束,实验结果显示其在TAL方法中表现优于现有技术。
TAL-Net方法的创新之处在哪里?
TAL-Net通过多尺度架构和特征融合改进了时间动作定位,表现优异。
少样本学习在时间行为定位中的应用效果如何?
少样本学习通过未剪裁视频动态适应新类别,显著优于现有方法。