基于大脑启发的分步补丁合并技术在视觉变换器中的应用

本研究解决了视觉变换器（ViTs）在特征提取中的局限性，提出了一种新的分步补丁合并（SPM）技术，旨在提升后续注意力机制的性能。SPM通过多尺度特征聚合和局部增强模块的结合，显著提升了在目标检测和语义分割等密集预测任务中的模型表现，显示出其在计算机视觉领域的重要应用潜力。

本文介绍了三种易于实现的视觉Transformer变体，包括并行处理残差层、微调注意力层权重以适应更高分辨率和其他分类任务，以及添加基于MLP的补丁预处理层。作者使用ImageNet-1k数据集评估了这些设计选择的影响，并在ImageNet-v2测试集上确认了研究发现。