TiC: 探索卷积中的视觉变换器
原文中文,约400字,阅读约需1分钟。发表于: 。通过结合 Self-Attention 与广义卷积(包括标准卷积、空洞卷积和深度卷积),Multi-Head Self-Attention Convolution (MSA-Conv) 扩展了 Transformer 模型,使其能够处理不同尺寸的图像,降低了计算成本,并且通过引入两种增强策略实现了长距离连接和扩大的感受野,而在图像分类任务中,Vision Transformer in...
该文介绍了一种名为MSA-Conv的模型,它结合了Self-Attention和广义卷积,扩展了Transformer模型,使其能够处理不同尺寸的图像,降低了计算成本,并且通过增强策略实现了长距离连接和扩大的感受野。该模型在图像分类任务中表现出色,与目前最先进的方法具有可比性。