结构之法算法之道 ·

一文通透让Meta恐慌的DeepSeek-V3：在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)

💡 原文中文，约10100字，阅读约需24分钟。

📝

内容提要

DeepSeek V3将于2024年12月发布，凭借1/14的算力超越Llama 3.1 405B，采用多头潜在注意力和负载平衡策略，训练成本仅为558万美元，展现了国内AI领域的创新能力。

🎯

关键要点

DeepSeek V3将于2024年12月发布，超越Llama 3.1 405B，算力仅为1/14。
DeepSeek V3的训练成本为558万美元，展现了国内AI领域的创新能力。
DeepSeek V3采用多头潜在注意力和负载平衡策略，提升了训练效率。
DeepSeek V3的参数量为671B，每个token激活3.7B个参数。
DeepSeek V3的GPU训练资源仅为Llama 3.1的1/14，显示出其高性价比。
DeepSeek V3在多个测试榜单上略微胜过Llama 3.1，证明了其性能优势。
DeepSeek V3的推出引发了Meta的恐慌，影响了英伟达的股价。
国内AI领域在大模型研究上逐渐崭露头角，DeepSeek V3是其中的代表。
DeepSeek V3的无辅助损失负载平衡策略有效提高了模型性能。
多token预测（MTP）目标的引入提升了DeepSeek V3的训练效率和数据利用率。

❓

延伸问答

DeepSeek V3的主要创新点是什么？

DeepSeek V3采用了多头潜在注意力和无辅助损失的负载平衡策略，并引入了多token预测，显著提升了训练效率和模型性能。

DeepSeek V3的训练成本是多少？

DeepSeek V3的训练成本为558万美元，显示出其高性价比。

DeepSeek V3与Llama 3.1的性能对比如何？

DeepSeek V3在多个测试榜单上略微胜过Llama 3.1，证明了其性能优势。

DeepSeek V3的参数量和算力需求是什么？

DeepSeek V3的参数量为671B，所需的GPU训练资源仅为Llama 3.1的1/14。

DeepSeek V3的推出对行业产生了什么影响？

DeepSeek V3的推出引发了Meta的恐慌，并影响了英伟达的股价，显示出其在行业中的重要性。

DeepSeek V3的多token预测目标有什么优势？

多token预测目标可以密集化训练信号，提高数据效率，使模型更好地预测未来token。

🏷️

继续阅读

科技爱好者周刊（第 399 期）：中国 AI 大厂访问记
今年5月，美国访问团考察了14家中国AI和机器人公司，发现中国在算力方面受限于美国的芯片出口管制，导致研发进展缓慢。尽管中国公司在效率上有所提升，但整体算...
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
教你薅token（二）：构建agent无关的skills管理工作流
本文介绍了pks（个人技能管理器），一个用纯bash编写的工具，旨在管理AI工作流文档。pks允许用户集中管理特定项目的技能，如编码规范和API设计，并按...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
构建新一代 AI Token 算力服务平台：KeyCompute 技术架构剖析
KeyCompute 是一个 AI Token 算力服务平台，旨在帮助中小企业和开发者管理多模型混用、账号池和计费等复杂链路。该平台使用 Rust 语言构...
证书到期了
文章讨论了用户在社交媒体或通讯工具中无法发送图片的问题，可能是由于技术故障或平台限制。建议检查网络连接或应用设置以解决此问题。