BriefGPT - AI 论文速递 ·

基于增强记忆的 Transformer 的在线时态行为定位

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了多种时间行为定位（TAL）方法的进展，包括T3AL、LocATe、OpenTAL和ActionSwitch等。这些新方法在不同数据集上表现优于传统方法，尤其在复杂场景和细粒度动作处理方面，验证了自适应和记忆机制在TAL中的有效性。

🎯

❓

T3AL方法通过测试时间自适应和自我监督学习显著提高了动作区域定位的性能，尤其在THUMOS14和ActivityNet-v1.3数据集上表现优异。

LocATe是一种端到端的3D-TAL方法，能够更好地捕捉动作之间的长期关联，并在PKU-MMD基准上取得93.2%的mAP。

OpenTAL框架通过不确定性动作分类、动作性预测和时间位置回归来解决开放场景中的未知动作问题，实验验证了其有效性。

ActionSwitch是第一个不依赖于类别信息的在线时间动作定位框架，能够检测重叠动作，并在复杂数据集中表现优异。

TALLFormer通过长期记忆机制消除了在每个训练迭代中处理冗余视频帧的需要，从而显著降低了GPU内存消耗和训练时间。

基于选择性状态空间模型的新TAL架构通过特征聚合和循环机制捕捉长距离依赖，实验结果在多个基准上达到了最先进水平。

🏷️