使用卷积注入器适应预训练 ViTs 的视觉动作控制
原文中文,约200字,阅读约需1分钟。发表于: 。使用 Convolution Injector(CoIn)给训练有素的 Vision Transformers(ViTs)注入富含局部性和等变性的卷积,提高其在视觉运动控制方面的适应性和性能。
本文介绍了一种名为ConViT的混合卷积-自注意力神经网络,通过门控位置自注意力机制,在图像分类任务上表现出优异性能和更高的样本效率,并提高了对定位特征的注意力。
使用 Convolution Injector(CoIn)给训练有素的 Vision Transformers(ViTs)注入富含局部性和等变性的卷积,提高其在视觉运动控制方面的适应性和性能。
本文介绍了一种名为ConViT的混合卷积-自注意力神经网络,通过门控位置自注意力机制,在图像分类任务上表现出优异性能和更高的样本效率,并提高了对定位特征的注意力。