Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级

Jurgen、曼宁等大佬新作:MoE重塑6年前的Universal Transformer,高效升级

💡 原文中文,约5700字,阅读约需14分钟。
📝

内容提要

7年前,谷歌提出Transformer,随后推出Universal Transformer(UT),通过层共享提升逻辑推理和语言建模性能。近期,研究者提出了Mixture-of-Experts Universal Transformers(MoEUT),结合混合专家架构,提高计算效率和泛化能力。MoEUT在多个数据集上表现优异,特别是在零样本任务中超越标准Transformer。研究显示,MoEUT能动态调整专家选择,适应不同任务需求。

🎯

关键要点

  • 7年前,谷歌提出Transformer,随后推出Universal Transformer(UT),通过层共享提升逻辑推理和语言建模性能。
  • UT在逻辑推理任务等组合问题上的表现优于Transformer,具有更好的组合泛化特性。
  • UT的计算效率低,不适合当前以参数为王的任务。
  • 研究者提出Mixture-of-Experts Universal Transformers(MoEUT),结合混合专家架构,提高计算效率和泛化能力。
  • MoEUT允许动态调整专家选择,适应不同任务需求,性能超越标准Transformer。
  • MoEUT在多个数据集上表现优异,特别是在零样本任务中。
  • MoEUT使用了layer grouping和peri-layernorm方案,优化了共享层MoE架构。
  • MoEUT在C4、SlimPajama和peS2o语言建模数据集上测试,结果显示循环对模型性能至关重要。
  • MoEUT的前馈块和自注意力层采用了σ-MoE和SwitchHead方法,提升了模型性能。
  • 研究者提出的peri-layernorm方案有效解决了残差增长问题,提供了高效的梯度流路径。
  • MoEUT在代码生成任务和下游任务的零样本性能上均优于基线模型。
  • MoEUT能够根据不同情况动态调整专家选择机制,专家在各层之间共享或专门化。
➡️

继续阅读