视网膜视觉转换器(RetinaViT)是从人类视觉系统中汲取灵感的模型,通过添加缩小版本的输入图像的补丁到第一个Transformer编码器层的输入中,提高了捕捉结构特征的能力并获得了3.3%的性能提升。这为进一步研究垂直通路和注意模式打开了新的研究方向。
完成下面两步后,将自动完成登录并继续当前操作。