BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

专家权重平均化:一种新的用于视觉 Transformer 的通用训练方案

Vision Transformers (ViTs) can be trained more efficiently using a modified Mixture-of-Experts (MoE) training scheme, where MoEs are utilized to replace certain parts of the ViT during training and converted back to the original ViT for inference, resulting in improved performance without increasing inference cost.

本文研究了Vision Transformers在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,对形状和结构的归纳偏差较强。相对于卷积神经网络,在分布偏移情况下具有更好的泛化性能,且使用相同数量的参数,在大多数类型的分布偏移下,比相应的CNN模型准确度高出5%以上。此外,作者还提出了增强泛化性能的GE-ViTs,对超参数敏感度高,因此设计了更平滑的学习策略以优化GE-ViTs的性能。

GE-ViTs Vision Transformers 分布偏移 卷积神经网络 泛化性能

相关推荐 去reddit讨论