小红花·文摘

本文介绍了一种新型神经网络架构ModuleFormer，基于稀疏专家混合（SMoE），旨在提高大型预训练语言模型的效率和专业化能力。通过自适应计算模块（ACM）降低计算成本，并提出混合注意力头（MoA）结构，提升自然语言处理任务性能。此外，研究了多路径结构对Transformer模型的影响，提出模块到模块的知识迁移方法（m2mKD），并在多语言机器翻译中应用语言特定矩阵合成（LMS）方法，取得显著改进。