小红花·文摘

视网膜视觉转换器（RetinaViT）是从人类视觉系统中汲取灵感的模型，通过添加缩小版本的输入图像的补丁到第一个Transformer编码器层的输入中，提高了捕捉结构特征的能力并获得了3.3%的性能提升。这为进一步研究垂直通路和注意模式打开了新的研究方向。