专家权重平均化:一种新的用于视觉 Transformer 的通用训练方案

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文研究了Vision Transformers在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,对形状和结构的归纳偏差较强。相对于卷积神经网络,在分布偏移情况下具有更好的泛化性能,且使用相同数量的参数,在大多数类型的分布偏移下,比相应的CNN模型准确度高出5%以上。此外,作者还提出了增强泛化性能的GE-ViTs,对超参数敏感度高,因此设计了更平滑的学习策略以优化GE-ViTs的性能。

原文中文,约300字,阅读约需1分钟。
阅读原文