【大模型基础设施工程·特别篇】27:DeepSeek-V4 的极致性价比从哪来
💡
原文中文,约14600字,阅读约需35分钟。
📝
内容提要
DeepSeek-V4通过创新技术实现高性价比,采用MoE模型分离总参数与每token成本,结合混合注意力CSA和HCA降低计算需求,引入mHC和Muon优化训练稳定性,利用磁盘缓存减少重复计算成本,最终实现1M上下文的高效推理。
🎯
关键要点
-
DeepSeek-V4通过MoE模型将总参数与每token成本分离,提升性价比。
-
DeepSeek-V4-Pro和V4-Flash的总参数分别为1.6T和284B,均支持1M上下文。
-
DeepSeek-V4采用混合注意力CSA和HCA,显著降低计算需求。
-
引入mHC优化残差连接,提高深层网络的稳定性和表达效率。
-
Muon优化器替代AdamW,提升收敛速度和训练稳定性。
-
通过磁盘缓存减少重复计算成本,降低API使用费用。
-
后训练采用On-Policy Distillation,先训练专家再统一蒸馏,提升效率。
-
FP4量化训练在MoE专家权重和CSA索引路径上应用,降低部署成本。
-
Quick Instruction和Interleaved Thinking优化Agent场景中的上下文管理,减少胶水成本。
➡️