小红花·文摘

2024年，混合专家（MoE）架构成为大模型的主流，开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本，同时提升模型表达能力，适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来，MoE将向更大规模和动态专家数发展。