本文介绍了一种新型神经网络架构ModuleFormer,基于稀疏专家混合(SMoE),旨在提高大型预训练语言模型的效率和专业化能力。通过自适应计算模块(ACM)降低计算成本,并提出混合注意力头(MoA)结构,提升自然语言处理任务性能。此外,研究了多路径结构对Transformer模型的影响,提出模块到模块的知识迁移方法(m2mKD),并在多语言机器翻译中应用语言特定矩阵合成(LMS)方法,取得显著改进。
完成下面两步后,将自动完成登录并继续当前操作。