量子位 ·

梁文锋署名DeepSeek新论文：公开V3大模型降本方法

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

DeepSeek最新论文介绍了V3大模型的降本方法，解决了内存不足、计算效率低和通信速度慢的问题。通过内存优化、多头潜在注意力和混合专家模型等技术，DeepSeek-V3实现了高效训练和推理，降低了成本并提升了性能。未来AI硬件需向低精度计算和网络拓扑优化发展，以支持更大规模的模型训练。

🎯

关键要点

DeepSeek最新论文介绍了V3大模型的降本方法，解决了内存不足、计算效率低和通信速度慢的问题。
DeepSeek-V3通过内存优化、多头潜在注意力和混合专家模型等技术实现高效训练和推理。
内存优化采用多头潜在注意力（MLA），显著降低了KV缓存的内存占用。
计算优化使用混合专家模型（MoE）和FP8低精度训练，减少了计算成本。
通信优化通过多层网络拓扑设计，降低了延迟并支持大规模GPU扩展。
推理加速采用多token预测（MTP），生成速度提升1.8倍，保持高准确率。
未来AI硬件需向低精度计算和网络拓扑优化发展，以支持更大规模的模型训练。
下一代AI硬件应提高累积寄存器精度，支持本地细粒度量化和动态带宽分配。
建议优化网络拓扑，开发专门针对RDMA工作负载的交换机，提升网络性能。
期待硬件支持链路层重试和快速故障切换，提高鲁棒性与容错能力。

❓

延伸问答

DeepSeek-V3是如何解决内存不足问题的？

DeepSeek-V3通过多头潜在注意力（MLA）技术优化内存，显著降低了键值缓存的内存占用。

DeepSeek-V3在计算效率方面有哪些创新？

DeepSeek-V3采用混合专家模型（MoE）和FP8低精度训练，显著减少了计算成本。

DeepSeek-V3如何提高推理速度？

DeepSeek-V3使用多token预测（MTP）方法，生成速度提升1.8倍，同时保持高准确率。

未来AI硬件的发展方向是什么？

未来AI硬件需向低精度计算、网络拓扑优化和鲁棒性提升等方向发展，以支持更大规模的模型训练。

DeepSeek-V3的通信优化是如何实现的？

DeepSeek-V3通过多层网络拓扑设计，降低了延迟并支持大规模GPU扩展。

DeepSeek-V3的训练成本相比传统模型如何？

DeepSeek-V3的训练成本仅为同规模稠密模型的1/10，显著降低了资源需求。

🏷️

继续阅读

DeepSeek发布Tile Kernels：用TileLang榨干GPU并打破CUDA垄断
DeepSeek发布的Tile Kernels通过TileLang优化GPU性能，打破了CUDA的垄断，推动AI工程从模型设计转向系统能力。TileLan...
荣耀 WIN 游戏本功耗拉到 270W，加风扇是散热永恒的真理
荣耀在成都发布了三款新产品：WIN游戏本、MagicBook Pro 2026轻薄本和MagicPad3 Pro 12.3平板。WIN游戏本具备6风扇散热...
“中国AI拿下这一轮，我没意见”——Kimi K2.6引爆Hacker News，海外开发者怎么看中国开源AI大模型？
Kimi K2.6是中国开源AI的最新成果，专注于长时程编码和多模态能力，受到开发者的广泛认可。其在编码任务上达到SOTA水平，展现了中国开源AI的强大实...
ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力
以色列理工学院的研究团队提出了一种名为 Task Tokens 的方法，旨在高效适配行为基础模型（BFM）到特定任务。该方法通过减少可训练参数和提高收敛速...
早报｜库克称将长期担任苹果执行董事长/张雪机车召回286台820RR/特斯拉车机将接入豆包与DeepSeek
库克在苹果员工大会上表示身体健康，计划长期担任执行董事长，并支持新任CEO特努斯。他强调过渡顺利，苹果产品线表现优异。特努斯承诺将利用AI推动产品创新。
GStack+GBrain技能化：从结构上消除智能体重复错误的工程方法
本文介绍了“技能化”方法，通过将智能体的失败转化为永久性技能，并配备测试以防止错误重现，从而提升智能体的可靠性。作者提出了十步检查清单，强调结构化工作流程...