历史增强锚定变压器用于在线时间动作定位
💡
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
本文介绍了一种新型动作定位方法,利用视觉线索和伪注释提高视频中动作的时空定位精度。通过多种算法和模型的结合,该方法在THUMOS14和ActivityNet v1.3数据集上表现优异,展示了其有效性和优势。
🎯
关键要点
- 提出了一种使用视觉线索的伪注释方法,替代手动点注释。
- 引入五种伪注释,并提出自动选择和组合的相关性度量。
- 在THUMOS14和ActivityNet v1.3数据集上,达到了与完全盒子监督结果相当的效果。
- 展示了伪注释在测试期间改善弱监督和强监督本地化器的能力。
- 提出了基于点的动作定位模块A2Net,结合传统基于anchor的模块,取得业界领先表现。
- 提出了无锚点的时间定位方法,击败了所有锚点和动作导向方法,取得最先进结果。
- ContextLoc模型通过丰富上下文解决时态动作定位问题,性能超过56%。
- BackTAL方法通过背景视频帧标签训练更强的动作本地化器,节省注释成本并提高性能。
- LocATe方法实现了93.2%的mAP,提出了更实际的基准数据集BABEL-TAL-20。
- 自监督预训练的假动作定位任务(PAL)提高时间动作定位任务性能。
- TALLFormer方法显著降低了GPU内存消耗和训练时间。
- OVFormer框架通过大型语言模型获得行动类别描述,证明了方法的有效性。
- 记忆增强变换器(MATR)改进动作定位准确性,优于现有在线和部分离线方法。
❓
延伸问答
什么是伪注释方法,它如何提高动作定位精度?
伪注释方法使用视觉线索代替手动点注释,通过自动选择和组合五种伪注释,利用分类标签确定视频中动作的时空位置,从而提高定位精度。
A2Net模块的创新之处是什么?
A2Net模块是一种基于点的动作定位框架,结合了传统的基于anchor的模块,展示了两者的互补性,并在THUMOS14数据集上实现了业界领先的表现。
ContextLoc模型的主要功能是什么?
ContextLoc模型通过丰富本地和全局上下文来解决时态动作定位问题,在THUMOS14和ActivityNet v1.3数据集上实现了超过56%的性能表现。
BackTAL方法如何提高动作本地化性能?
BackTAL方法通过背景视频帧标签训练更强的动作本地化器,相比传统弱监督方法,节省了注释成本并稳定提高了本地化性能。
LocATe方法在3D动作定位中有什么突破?
LocATe方法是一种端到端的3D-TAL方法,能够同时定位和识别3D运动中的动作,并在PKU-MMD基准上实现93.2%的mAP,提出了更实际的基准数据集BABEL-TAL-20。
记忆增强变换器(MATR)如何改善动作定位准确性?
MATR通过选择性地保留过去的片段特征,解决了在线时间动作定位中无法有效利用长时间上下文的问题,从而提高了动作定位的准确性。
➡️