量子位 ·

英伟达MoE新开源：一行import，微调加速3.7倍

💡 原文中文，约2000字，阅读约需5分钟。

📝

内容提要

英伟达推出NeMo AutoModel，基于Transformers v5，提升MoE模型微调速度3.4-3.7倍，显存减少29%-32%。通过专家并行、DeepEP和TransformerEngine等技术，优化内存和计算效率。用户只需添加一行代码即可实现升级，支持更大批次和更长序列，相关代码已开源。

🎯

关键要点

英伟达推出NeMo AutoModel，基于Transformers v5，专为大规模构建和微调生成式AI模型而设计。
NeMo AutoModel通过添加一行代码实现MoE模型的快速微调，提升速度3.4-3.7倍，显存减少29%-32%。
专家并行技术将专家权重分布到多个GPU上，显著降低内存占用。
DeepEP技术融合计算和通信，减少通信成本，提高效率。
TransformerEngine内核加速各类核心运算，提升MoE层和普通Transformer层的性能。
英伟达已将相关代码和配置开源，用户可在GitHub上获取。

🔎

延伸解读

技术背景与优势

英伟达的NeMo AutoModel在Transformers v5的基础上，利用专家并行和DeepEP等技术，显著提升了MoE模型的微调效率。这种技术的引入，不仅降低了显存占用，还提高了训练吞吐量，使得大规模生成式AI模型的构建变得更加高效。

开源与社区支持

英伟达将NeMo AutoModel的相关代码开源，用户可以在GitHub上获取。这一举措不仅促进了技术的普及，也为开发者提供了便利，使他们能够在现有的Transformers v5基础上，快速实现模型的升级与优化。

应用场景与潜在挑战

虽然NeMo AutoModel在提升微调速度和降低显存方面表现出色，但在实际应用中，用户仍需关注模型训练的复杂性和基础设施的要求。尤其是在大规模训练时，如何有效管理资源和优化计算过程将是关键挑战。

❓

延伸问答

英伟达的NeMo AutoModel有什么主要功能？

NeMo AutoModel主要用于大规模构建和微调生成式AI模型，提升MoE模型微调速度3.4-3.7倍，并减少显存占用29%-32%。

如何使用NeMo AutoModel进行MoE模型的微调？

用户只需在代码中添加一行import，即可实现对MoE模型的快速微调。

NeMo AutoModel是基于什么技术开发的？

NeMo AutoModel基于Hugging Face的Transformers v5，增加了专家并行、DeepEP和TransformerEngine等技术。

专家并行技术如何降低内存占用？

专家并行技术将专家权重分布到多个GPU上，使每个GPU只持有部分参数，从而显著降低内存占用。

DeepEP技术的作用是什么？

DeepEP技术通过将token分发和专家计算整合，减少了通信成本，提高了计算效率。

英伟达为何要开源NeMo AutoModel？

英伟达开源NeMo AutoModel是为了让用户能够更方便地使用其技术，提升MoE模型的训练效率。

🏷️