MaXTron: 具有轨迹注意力的视频全景分割的掩码变换器

MaXTron 是一个利用轨迹注意力和 Mask XFormer 解决视频全景分割问题的通用框架，通过增强现成的遮罩变换器以及利用轨迹注意力来提高短期和长期跟踪结果，并且在视频分割基准测试中展示了最先进的表现。

本文证明了自注意力结构足以实现信息聚合，无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer（ViT）架构作为主跟踪器，并将模板和搜索图像进行特征嵌入，进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成，可以以每秒 40 帧的速度运行，并在多个测试数据集上实现了最先进的跟踪效果。

信息聚合变换跟踪器特征嵌入目标跟踪自注意力结构