类比图像:视觉变换器中的模块化超像素标记化
原文中文,约300字,阅读约需1分钟。发表于: 。本文解决了传统视觉变换器在标记化过程中与图像语义内容无关的问题。提出了一种模块化超像素标记化策略,分离了标记化与特征提取,显著提高了属性的准确性,并在零-shot 无监督稠密预测任务中实现了更高的像素级精度,同时保持了分类任务中的预测性能。该方法为视觉变换器提供了一个模块化的标记化框架,拓展了其在语义丰富模型中的应用空间。
本研究提出了一种模块化超像素标记化策略,解决了传统视觉变换器在标记化过程中未考虑图像语义内容的问题。该方法在零-shot无监督密集预测任务中达到了像素级别的精度,并保持了分类任务的预测性能。这一方法为模块化标记化框架提供了新机会,扩展了视觉变换器的应用范围。