土法炼钢兴趣小组的博客 ·

【大模型基础设施工程·特别篇】27：DeepSeek-V4 的极致性价比从哪来

💡 原文中文，约14600字，阅读约需35分钟。

📝

内容提要

DeepSeek-V4通过创新技术实现高性价比，采用MoE模型分离总参数与每token成本，结合混合注意力CSA和HCA降低计算需求，引入mHC和Muon优化训练稳定性，利用磁盘缓存减少重复计算成本，最终实现1M上下文的高效推理。

🎯

关键要点

DeepSeek-V4通过MoE模型将总参数与每token成本分离，提升性价比。
DeepSeek-V4-Pro和V4-Flash的总参数分别为1.6T和284B，均支持1M上下文。
DeepSeek-V4采用混合注意力CSA和HCA，显著降低计算需求。
引入mHC优化残差连接，提高深层网络的稳定性和表达效率。
Muon优化器替代AdamW，提升收敛速度和训练稳定性。
通过磁盘缓存减少重复计算成本，降低API使用费用。
后训练采用On-Policy Distillation，先训练专家再统一蒸馏，提升效率。
FP4量化训练在MoE专家权重和CSA索引路径上应用，降低部署成本。
Quick Instruction和Interleaved Thinking优化Agent场景中的上下文管理，减少胶水成本。

🔎

延伸解读

DeepSeek-V4的技术创新

DeepSeek-V4通过MoE模型和混合注意力技术，显著降低了计算需求和每token的成本。这种创新不仅提升了模型的性价比，还使得1M上下文的推理变得可行，适应了更复杂的应用场景。

训练稳定性的重要性

DeepSeek-V4在训练过程中引入了多种稳定性机制，如mHC和Muon优化器，确保了深层网络的可控性。这些设计不仅提高了训练效率，还降低了因不稳定导致的成本，反映出训练稳定性在大模型开发中的关键作用。

磁盘缓存的经济效益

DeepSeek-V4的磁盘缓存机制有效减少了重复计算的成本，使得API使用费用大幅降低。通过将共享前缀从重复计算转变为廉价读取，模型在长文档处理和多轮对话中展现出更高的经济性。

🏷️

标签

DeepSeek-V4 MoE模型 deepseek 基础设施工程混合注意力训练稳定性高效推理

➡️

继续阅读

腾讯云、Rockstreamer携手为孟加拉国体育赛事直播推出OTT基础设施
腾讯云和 Rockstreamer Private Limited 宣布建立战略合作伙伴关系，为孟加拉国和新兴市场的电信运营商、广播公司、媒体公司、体育版...
8×8 中小企业方案为直接分销合作伙伴提供灵活的、按使用量计费的统一通信解决方案
商业通信平台提供商 8×8 公司推出了 8×8 Small Business，这是一款全新的自助式按需付费产品，让分销合作伙伴能够更灵活地赢得并服务于中小...
开源媒体服务器Jellyfin创始领导层集体辞职项目后续治理和开发路线变得灰暗
#软件资讯开源媒体服务器项目 Jellyfin 创始团队接连离开，项目后续治理和路线变得灰暗，暂时也没有继任安排。近期 Jellyfin 两名联合创始人...
Twitter之父再出手：Block开源Buzz，要让人类和AI Agent「同工同权」
Block（原Square）7月22日开源发布协作平台Buzz——一个基于Nostr协议、让人类员工与AI Agent在同一工作区内以「同等身份」协同工作...
Getty Images扩大与Goalhanger的合作关系，加大对视频优先叙事方式的投资
视觉内容创作和市场 Getty Images 和独立播客制作商 Goalhanger 宣布扩大内容合作关系，以支持 Goalhanger 在其节目组合中不...
数据显示：世界杯直播观看量比2022年增长473%
Everyone TV 公布的 Barb 收视数据显示，通过宽带观看 2026 年 FIFA 世界杯的人数显著增加，凸显了英国持续向互联网电视转型。 Ba...