基于增强记忆的 Transformer 的在线时态行为定位

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本文介绍了多种时间行为定位(TAL)方法的进展,包括T3AL、LocATe、OpenTAL和ActionSwitch等。这些新方法在不同数据集上表现优于传统方法,尤其在复杂场景和细粒度动作处理方面,验证了自适应和记忆机制在TAL中的有效性。

🎯

关键要点

  • T3AL方法通过测试时间自适应和自我监督学习显著提高了动作区域定位的性能。
  • IntraC和InterC正则化项使得TAL框架能够适应潜在时间约束,实验结果优于基线。
  • LocATe是一种端到端的3D-TAL方法,能够更好地捕捉动作之间的长期关联,并在PKU-MMD基准上取得93.2%的mAP。
  • OpenTAL框架通过不确定性动作分类、动作性预测和时间位置回归解决开放场景中的未知动作问题,实验验证了其有效性。
  • ActionSwitch是第一个不依赖于类别信息的在线时间动作定位框架,能够检测重叠动作,并在复杂数据集中表现优异。
  • TALLFormer是一种内存高效的时间动作定位Transformer方法,显著降低了GPU内存消耗和训练时间。
  • 新方法通过生成和评估灵活时长的动作提案,利用聚类算法和对比损失提高了伪标签质量,性能与最先进方法相媲美。
  • 基于选择性状态空间模型的新TAL架构通过特征聚合和循环机制捕捉长距离依赖,实验结果在多个基准上达到了最先进水平。

延伸问答

T3AL方法的主要优势是什么?

T3AL方法通过测试时间自适应和自我监督学习显著提高了动作区域定位的性能,尤其在THUMOS14和ActivityNet-v1.3数据集上表现优异。

LocATe方法在3D-TAL中有什么创新?

LocATe是一种端到端的3D-TAL方法,能够更好地捕捉动作之间的长期关联,并在PKU-MMD基准上取得93.2%的mAP。

OpenTAL框架是如何解决未知动作问题的?

OpenTAL框架通过不确定性动作分类、动作性预测和时间位置回归来解决开放场景中的未知动作问题,实验验证了其有效性。

ActionSwitch框架的独特之处是什么?

ActionSwitch是第一个不依赖于类别信息的在线时间动作定位框架,能够检测重叠动作,并在复杂数据集中表现优异。

TALLFormer方法如何提高内存效率?

TALLFormer通过长期记忆机制消除了在每个训练迭代中处理冗余视频帧的需要,从而显著降低了GPU内存消耗和训练时间。

新TAL架构的主要贡献是什么?

基于选择性状态空间模型的新TAL架构通过特征聚合和循环机制捕捉长距离依赖,实验结果在多个基准上达到了最先进水平。

➡️

继续阅读