历史增强锚定变压器用于在线时间动作定位

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

本文介绍了一种新型动作定位方法,利用视觉线索和伪注释提高视频中动作的时空定位精度。通过多种算法和模型的结合,该方法在THUMOS14和ActivityNet v1.3数据集上表现优异,展示了其有效性和优势。

🎯

关键要点

  • 提出了一种使用视觉线索的伪注释方法,替代手动点注释。
  • 引入五种伪注释,并提出自动选择和组合的相关性度量。
  • 在THUMOS14和ActivityNet v1.3数据集上,达到了与完全盒子监督结果相当的效果。
  • 展示了伪注释在测试期间改善弱监督和强监督本地化器的能力。
  • 提出了基于点的动作定位模块A2Net,结合传统基于anchor的模块,取得业界领先表现。
  • 提出了无锚点的时间定位方法,击败了所有锚点和动作导向方法,取得最先进结果。
  • ContextLoc模型通过丰富上下文解决时态动作定位问题,性能超过56%。
  • BackTAL方法通过背景视频帧标签训练更强的动作本地化器,节省注释成本并提高性能。
  • LocATe方法实现了93.2%的mAP,提出了更实际的基准数据集BABEL-TAL-20。
  • 自监督预训练的假动作定位任务(PAL)提高时间动作定位任务性能。
  • TALLFormer方法显著降低了GPU内存消耗和训练时间。
  • OVFormer框架通过大型语言模型获得行动类别描述,证明了方法的有效性。
  • 记忆增强变换器(MATR)改进动作定位准确性,优于现有在线和部分离线方法。

延伸问答

什么是伪注释方法,它如何提高动作定位精度?

伪注释方法使用视觉线索代替手动点注释,通过自动选择和组合五种伪注释,利用分类标签确定视频中动作的时空位置,从而提高定位精度。

A2Net模块的创新之处是什么?

A2Net模块是一种基于点的动作定位框架,结合了传统的基于anchor的模块,展示了两者的互补性,并在THUMOS14数据集上实现了业界领先的表现。

ContextLoc模型的主要功能是什么?

ContextLoc模型通过丰富本地和全局上下文来解决时态动作定位问题,在THUMOS14和ActivityNet v1.3数据集上实现了超过56%的性能表现。

BackTAL方法如何提高动作本地化性能?

BackTAL方法通过背景视频帧标签训练更强的动作本地化器,相比传统弱监督方法,节省了注释成本并稳定提高了本地化性能。

LocATe方法在3D动作定位中有什么突破?

LocATe方法是一种端到端的3D-TAL方法,能够同时定位和识别3D运动中的动作,并在PKU-MMD基准上实现93.2%的mAP,提出了更实际的基准数据集BABEL-TAL-20。

记忆增强变换器(MATR)如何改善动作定位准确性?

MATR通过选择性地保留过去的片段特征,解决了在线时间动作定位中无法有效利用长时间上下文的问题,从而提高了动作定位的准确性。

➡️

继续阅读