感知分组解析器：通过迭代分组构建感知

人类视觉识别系统显示了惊人的能力，能够将视觉信息压缩为一组包含丰富表示的令牌，无需标签监督。本文提出了感知分组标记器，一种完全依赖于分组操作的模型，用于提取视觉特征和进行自监督表示学习，其中一系列分组操作被用于迭代地假设像素或超像素的上下文，以改进特征表示。我们表明，与最先进的视觉架构相比，所提出的模型在性能上具有竞争力，并且具有自适应计算和可解释性等可取的属性。具体而言，感知分组标记器在...

本文介绍了一种感知分组标记器模型，用于提取视觉特征和进行自监督表示学习。该模型通过分组操作迭代地改进特征表示，具有竞争力的性能和自适应计算。在ImageNet-1K自监督学习基准测试中，该模型获得了80.3％的性能。