Josherich的博客 ·

斯坦福大学CS336课程：从零开始的语言建模 - 2025年春季 - 混合专家模型

💡 原文英文，约12600词，阅读约需46分钟。

📝

内容提要

斯坦福大学CS336课程介绍了混合专家模型的最新进展，强调其在高性能系统中的重要性。该模型通过稀疏激活多个子组件，提高了计算效率和性能。研究表明，在相同计算量下，混合专家模型的训练效果优于密集模型。开源系统DeepSeek展示了这一架构在大规模训练中的优势。

🎯

🔎

混合专家模型通过稀疏激活多个子组件，显著提高了计算效率和性能。然而，这种架构的复杂性和系统要求使其在实际应用中面临挑战。尤其是在多节点训练时，如何有效地路由数据到不同的专家是一个关键问题，可能会影响整体性能。

DeepSeek V3作为当前最先进的开源系统之一，展示了混合专家架构在大规模训练中的优势。其引入的在线学习机制能够动态调整专家的吸引力，从而实现更好的负载均衡。这种创新使得DeepSeek V3在处理复杂任务时表现出色，值得关注其在实际应用中的表现。

路由机制是混合专家模型的核心，决定了输入如何分配给不同的专家。有效的路由策略能够提高模型的训练效率和性能，但设计和优化路由机制的过程复杂且具有挑战性。研究者需关注如何平衡专家的负载，以避免某些专家过载而其他专家闲置。

❓

混合专家模型通过稀疏激活多个子组件（专家），而不是每个专家都处理所有输入，从而提高计算效率和性能。

研究表明，在相同计算量下，混合专家模型的训练效果优于密集模型，能够在相同的FLOPS下提供更好的性能。

DeepSeek是一个开源系统，展示了混合专家架构在大规模训练中的优势，尤其是在提高计算效率方面。

路由机制决定了输入如何分配给不同的专家，通常采用token选择的方式，选择每个token的前K个专家进行处理。

混合专家模型的复杂性和系统要求使其在实际应用中面临挑战，尤其是在多节点训练和专家存储方面。

增加专家数量可以降低语言模型的训练损失，使用平衡损失函数可以有效分配输入，避免某些专家过载。

🏷️