通过软的 MoE 方法解决了传统 MoE 方法的问题,在视觉识别任务中表现优于标准 Transformers 和其他 MoE 变种,并在模型规模扩展上有良好性能。
该文介绍了一种软的 MoE 方法,可以在训练和推断成本上实现模型容量的扩展,解决了传统的 MoE 方法中存在的多个问题。该方法在视觉识别任务中表现优于标准的 Transformers 和其他 MoE 变种,并且在模型规模扩展上也有良好的性能。
完成下面两步后,将自动完成登录并继续当前操作。