专家权重平均化：一种新的用于视觉 Transformer 的通用训练方案

Vision Transformers (ViTs) can be trained more efficiently using a modified Mixture-of-Experts (MoE) training scheme, where MoEs are utilized to replace certain parts of the ViT during training...

本文研究了Vision Transformers在分布偏移情况下的泛化问题，发现其在背景和纹理上学习的偏差较弱，对形状和结构的归纳偏差较强。相对于卷积神经网络，在分布偏移情况下具有更好的泛化性能，且使用相同数量的参数，在大多数类型的分布偏移下，比相应的CNN模型准确度高出5%以上。此外，作者还提出了增强泛化性能的GE-ViTs，对超参数敏感度高，因此设计了更平滑的学习策略以优化GE-ViTs的性能。

GE-ViTs Vision Transformers transformer 分布偏移卷积神经网络泛化性能