MaXTron: 具有轨迹注意力的视频全景分割的掩码变换器

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文证明了自注意力结构足以实现信息聚合,无需进行结构适应以及对于目标跟踪提取辨别特征和增强目标和搜索图像之间的通信。通过采用基本的视觉 Transformer(ViT)架构作为主跟踪器,并将模板和搜索图像进行特征嵌入,进而提出了一种紧凑的变换跟踪器。该跟踪器仅由一个 ViT 主干和一个框头组成,可以以每秒 40 帧的速度运行,并在多个测试数据集上实现了最先进的跟踪效果。

原文中文,约200字,阅读约需1分钟。
阅读原文