机器之心 ·

不用英伟达GPU！华为盘古Ultra来了：昇腾原生、135B稠密通用大模型

💡 原文中文，约6100字，阅读约需15分钟。

📝

内容提要

华为发布了基于昇腾的135B参数的千亿级语言模型Pangu Ultra，采用94层Transformer结构。该模型在多个领域超越了Llama 405B，解决了训练稳定性问题，提升了算力利用率，并通过优化分词器和数据质量支持长序列输入，验证了技术路径的有效性。

🎯

关键要点

华为发布了基于昇腾的135B参数的千亿级语言模型Pangu Ultra，采用94层Transformer结构。
Pangu Ultra在多个领域超越了Llama 405B和Mistral Large 2等模型，解决了训练稳定性问题。
模型采用Depth-scaled sandwich-norm和TinyInit技术，提升了训练稳定性和性能。
Pangu Ultra的分词器优化了领域感知策略，生成了包含153376词元的词汇表。
预训练过程分为三个阶段，覆盖了高质量、多样化的13.2T tokens。
模型支持长序列输入，最大可达128K tokens，提升了处理能力。
后训练阶段采用监督微调和强化学习，显著提升模型推理能力。
系统优化通过混合并行策略和其他技术手段提升了算力利用率至52%。
Pangu Ultra在多个基准测试中表现优异，验证了其技术路径的有效性。

❓

延伸问答

华为盘古Ultra模型的参数量和结构是什么？

华为盘古Ultra模型拥有1350亿参数，采用94层的Transformer结构。

Pangu Ultra如何解决训练稳定性问题？

Pangu Ultra通过Depth-scaled sandwich-norm和TinyInit技术来提升训练稳定性。

Pangu Ultra的预训练过程是怎样的？

Pangu Ultra的预训练过程分为三个阶段：通用能力训练、推理能力增训和退火阶段，覆盖了13.2T高质量tokens。

Pangu Ultra在长序列输入方面有什么优势？

Pangu Ultra支持最大128K tokens的长序列输入，显著提升了处理能力。

Pangu Ultra在基准测试中的表现如何？

Pangu Ultra在多个基准测试中表现优异，超越了Llama 405B和Mistral Large 2等模型。

华为盘古Ultra模型的分词器有什么特点？

Pangu Ultra的分词器采用领域感知策略，生成了包含153376词元的词汇表，提升了不同领域的处理能力。

🏷️

继续阅读

AI数智时代：股票智能预测系统功能实战
本案例介绍了基于华为云码道的股票智能预测系统，利用Transformer算法和Tushare获取A股历史数据，预测未来5日价格。用户可通过可视化图表查看预...
国产大模型编码能力实测(GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro)
本文对四款国产大模型（GLM 5.1、Kimi K2.6、Mimo v2.5 Pro 和 DeepSeek V4 Pro）的编码能力进行了实测。结果显示，...
一年烧钱近7000亿美元！谷歌、Meta、亚马逊、微软：AI不只是风口
4月30日消息，当地时间周三盘后，Alphabet、Meta、亚马逊和微软集中披露财报，四大科技巨头交出了一份由AI和云计算推动的成绩单：Alphabet...
苹果意外泄露CLAUDE.md背后真相：AI开发流程正在被彻底重写的信号！
苹果意外泄露的CLAUDE.md文件揭示了AI开发流程的重大变化，强调从传统编码转向以自然语言编写提示词。这一事件暴露了企业在AI工具使用中的隐患和开发流...
营收破千亿、装机量超 25 亿，苹果交出史上最强三月季度答卷
【TechWeb】5月1日消息，据外媒报道，苹果发布 2026 财年第二季度（自然年第一季度）财报，并召开财报电话会议，宣布本季度创下史上最佳三月季度业绩...
在Aurora中对大型表执行ALTER TABLE
最近，一位客户的数据库表的auto_increment值接近最大容量。为避免超限，建议将数据类型从INT UNSIGNED更改为BIGINT。在使用pt-...