国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

机器之心 ·

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

国产大模型DeepSeek-V3以671B参数和278.8万H800 GPU小时的训练成本，表现优异，超越多款开源模型。其MLA和DeepSeekMoE架构提升了推理效率，标志着分布式推理新时代的到来。

🎯

关键要点

国产大模型DeepSeek-V3参数量达到671B，训练成本为278.8万H800 GPU小时。
DeepSeek-V3在多项任务上表现优异，超越多款开源模型。
采用MLA和DeepSeekMoE架构提升推理效率，标志分布式推理新时代的到来。
DeepSeek-V3使用无辅助损失的负载平衡策略和多token预测训练目标。
预训练token量为14.8万亿，经过监督式微调和强化学习。
DeepSeek-V3获得了广泛好评，Meta AI和著名AI科学家均给予高度评价。
DeepSeek-V3的架构改进和数据处理优化提升了模型性能。
模型超参数设置为61层Transformer，隐藏层维度为7168。
DeepSeek-V3支持长达128K的上下文输入，保持强劲性能。
DeepSeek-V3在多项基准测试中全面超越其他开源模型，成为最强大的开源模型。

❓

延伸问答

DeepSeek-V3的参数量和训练成本是多少？

DeepSeek-V3的参数量为671B，训练成本为278.8万H800 GPU小时。

DeepSeek-V3在性能上与其他模型相比如何？

DeepSeek-V3在多项任务上表现优异，超越多款开源模型，并与GPT-4o和Claude 3.5 Sonnet相比也毫不逊色。

DeepSeek-V3采用了哪些技术架构？

DeepSeek-V3采用了MLA（多头隐注意力）和DeepSeekMoE架构，以提升推理效率。

DeepSeek-V3的预训练过程是怎样的？

DeepSeek-V3使用了14.8万亿的预训练token，并进行了监督式微调和强化学习。

DeepSeek-V3的上下文输入能力如何？

DeepSeek-V3支持长达128K的上下文输入，保持强劲性能。

DeepSeek-V3的架构改进带来了哪些优势？

架构改进和数据处理优化提升了DeepSeek-V3的模型性能，使其在基准测试中全面超越其他开源模型。

🏷️

继续阅读

国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
重塑中国豪华汽车全球旗舰标杆，魏牌V9X重磅登陆北京车展
在2026北京国际汽车展上，魏牌发布了豪华旗舰SUV魏牌V9X，计划进军欧亚和中东市场。凭借自研能力，魏牌在高端市场取得显著成果，全球用户超过70万。V9...
海信RGB MiniLED显示屏亮相《穿普拉达的女王2》全球首映礼
海信与二十世纪影业合作，在《穿普拉达的女王2》全球首映礼上展示了其RGB MiniLED显示技术，该技术提升了色彩还原度和亮度，满足高端场景需求，强调了新...
IBM在全球范围内正式推出IBM Bob
IBM最近推出了IBM Bob，一个专为企业团队设计的AI开发伙伴，旨在提升软件开发生命周期的效率。Bob支持从规划到测试的各个阶段，具备安全控制和可审计...
为智能体可信协作提供新方案蚂蚁数科登顶以太坊全球基准评测
蚂蚁数科的零知识证明虚拟机zkDTVM在以太坊的EthProofs基准测试中将区块证明速度压缩至3.7秒，打破业界纪录，显示其区块链技术的全球领先地位。该...
阿里云 ESA 免费 CDN 教程：全球加速 + DDoS 防护，手把手续期至 2051 年
本文介绍了阿里云ESA的免费CDN使用教程，用户可申请免费版并设置续费规则，将有效期延长至2051年。操作步骤包括进入申请页面、选择免费版、管理套餐和设置...