MaXTron: 具有轨迹注意力的视频全景分割的掩码变换器

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文证明了自注意力结构足以实现信息聚合,无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer(ViT)架构作为主跟踪器,并将模板和搜索图像进行特征嵌入,进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成,可以以每秒 40 帧的速度运行,并在多个测试数据集上实现了最先进的跟踪效果。

🎯

关键要点

  • 自注意力结构足以实现信息聚合,无需进行结构适应。

  • 目标跟踪提取辨别特征和增强目标与搜索图像之间的通信。

  • 采用基本的视觉 Transformer(ViT)架构作为主跟踪器。

  • 提出了一种紧凑的变换跟踪器,仅由一个 ViT 主干和一个框头组成。

  • 该跟踪器可以以每秒 40 帧的速度运行。

  • 在多个测试数据集上实现了最先进的跟踪效果。

➡️

继续阅读