小红花·文摘

该文章介绍了一种新的视觉Transformer（ViT）架构，使用超像素非规则标记化策略提取图像特征。该方法在提升归因真实性和零样本无监督密集预测任务中有显著改进。实验结果表明，该方法在分类任务中表现出色，并提供了更丰富的Transformer空间。