专家权重平均化:一种新的用于视觉 Transformer 的通用训练方案
Vision Transformers (ViTs) can be trained more efficiently using a modified Mixture-of-Experts (MoE) training scheme, where MoEs are utilized to replace certain parts of the ViT during training...
本文研究了Vision Transformers在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,对形状和结构的归纳偏差较强。相对于卷积神经网络,在分布偏移情况下具有更好的泛化性能,且使用相同数量的参数,在大多数类型的分布偏移下,比相应的CNN模型准确度高出5%以上。此外,作者还提出了增强泛化性能的GE-ViTs,对超参数敏感度高,因此设计了更平滑的学习策略以优化GE-ViTs的性能。