BriefGPT - AI 论文速递 ·

历史增强锚定变压器用于在线时间动作定位

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了一种新型动作定位方法，利用视觉线索和伪注释提高视频中动作的时空定位精度。通过多种算法和模型的结合，该方法在THUMOS14和ActivityNet v1.3数据集上表现优异，展示了其有效性和优势。

🎯

❓

伪注释方法使用视觉线索代替手动点注释，通过自动选择和组合五种伪注释，利用分类标签确定视频中动作的时空位置，从而提高定位精度。

A2Net模块是一种基于点的动作定位框架，结合了传统的基于anchor的模块，展示了两者的互补性，并在THUMOS14数据集上实现了业界领先的表现。

ContextLoc模型通过丰富本地和全局上下文来解决时态动作定位问题，在THUMOS14和ActivityNet v1.3数据集上实现了超过56%的性能表现。

BackTAL方法通过背景视频帧标签训练更强的动作本地化器，相比传统弱监督方法，节省了注释成本并稳定提高了本地化性能。

LocATe方法是一种端到端的3D-TAL方法，能够同时定位和识别3D运动中的动作，并在PKU-MMD基准上实现93.2%的mAP，提出了更实际的基准数据集BABEL-TAL-20。

MATR通过选择性地保留过去的片段特征，解决了在线时间动作定位中无法有效利用长时间上下文的问题，从而提高了动作定位的准确性。

🏷️