一张图像胜过 16x16 贴片:研究基于单个像素的 Transformer 模型
原文中文,约300字,阅读约需1分钟。发表于: 。本研究发现在计算机视觉体系结构中的归纳偏置 —— 局部性的必要性存在疑问,可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。
本文介绍了三种易于实现的视觉Transformer变体,包括并行处理残差层、微调注意力层权重以适应更高分辨率和其他分类任务,以及添加基于MLP的补丁预处理层。作者使用ImageNet-1k数据集评估了这些设计选择的影响,并在ImageNet-v2测试集上确认了研究发现。转移性能在六个较小的数据集上进行了评估。