小红花·文摘

本论文介绍了一种新型的水平可伸缩视觉转换器(HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，减少模型层数和参数数量，促进ViT模型在多个节点上的协同训练和推理，实现比现有方案高达10%的top-1准确率，证明了其在保持归纳偏差方面的优越性。