ParFormer:使用并行的本地全局令牌混合和卷积注意力补丁嵌入的视觉 Transformer 基线
发表于: 。该研究提出了 ParFormer 作为一种改进的 transformer 体系结构,通过将不同的 token mixer 集成到一个阶段中,从而提高特征提取能力。与传统的窗口移动方法不同,结合本地和全局数据可以精确表示短程和长程空间关系。通过并行的 token mixer 编码器以及卷积注意力模块,我们提出了 Enhance Patch Embedding for Token Mixer...