论文提出了一种用于密集预测任务的纯Transformer主干网络PVT,结合特征金字塔结构和空间缩减注意力层,能够在有限资源下生成高分辨率和多尺度特征图。实验结果表明,PVT在物体检测和语义分割任务中优于传统的CNN主干网络。
完成下面两步后,将自动完成登录并继续当前操作。