通道视觉变换器:一幅图像值 C x 16 x 16 个词
原文中文,约400字,阅读约需1分钟。发表于: 。本文介绍了一种名为 ChannelViT 的模型,通过引入 Hierarchical Channel Sampling 技术对 ViT 进行改进,以增强其在多通道图像领域中的应用能力,并证明了其在分类任务上的性能优于 ViT,即使在测试期间只使用部分输入通道,ChannelViT 仍能良好地推广。同时,通过实验证明,Hierarchical Channel Sampling...
本文介绍了一种名为ChannelViT的模型,通过引入Hierarchical Channel Sampling技术对ViT进行改进,以增强其在多通道图像领域中的应用能力,并证明了其在分类任务上的性能优于ViT。同时,实验证明Hierarchical Channel Sampling作为一种简单直接的技术,可以作为ViT训练的有效正则化器,使得ChannelViT能够在稀疏传感器条件下,在有限访问所有通道的情况下有效推广。