SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024 - 晓飞的算法工程笔记
原文中文,约9400字,阅读约需23分钟。发表于: 。Vision Transformer(ViT) 架构传统上采用基于网格的方法进行标记化,而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略,该策略将标记化和特征提取解耦,与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入,与基于图像
该文章介绍了一种新的视觉Transformer(ViT)架构,使用超像素非规则标记化策略提取图像特征。该方法在提升归因真实性和零样本无监督密集预测任务中有显著改进。实验结果表明,该方法在分类任务中表现出色,并提供了更丰富的Transformer空间。