不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

不用英伟达GPU!华为盘古Ultra来了:昇腾原生、135B稠密通用大模型

💡 原文中文,约6100字,阅读约需15分钟。
📝

内容提要

华为发布了基于昇腾的135B参数的千亿级语言模型Pangu Ultra,采用94层Transformer结构。该模型在多个领域超越了Llama 405B,解决了训练稳定性问题,提升了算力利用率,并通过优化分词器和数据质量支持长序列输入,验证了技术路径的有效性。

🎯

关键要点

  • 华为发布了基于昇腾的135B参数的千亿级语言模型Pangu Ultra,采用94层Transformer结构。
  • Pangu Ultra在多个领域超越了Llama 405B和Mistral Large 2等模型,解决了训练稳定性问题。
  • 模型采用Depth-scaled sandwich-norm和TinyInit技术,提升了训练稳定性和性能。
  • Pangu Ultra的分词器优化了领域感知策略,生成了包含153376词元的词汇表。
  • 预训练过程分为三个阶段,覆盖了高质量、多样化的13.2T tokens。
  • 模型支持长序列输入,最大可达128K tokens,提升了处理能力。
  • 后训练阶段采用监督微调和强化学习,显著提升模型推理能力。
  • 系统优化通过混合并行策略和其他技术手段提升了算力利用率至52%。
  • Pangu Ultra在多个基准测试中表现优异,验证了其技术路径的有效性。

延伸问答

华为盘古Ultra模型的参数量和结构是什么?

华为盘古Ultra模型拥有1350亿参数,采用94层的Transformer结构。

Pangu Ultra如何解决训练稳定性问题?

Pangu Ultra通过Depth-scaled sandwich-norm和TinyInit技术来提升训练稳定性。

Pangu Ultra的预训练过程是怎样的?

Pangu Ultra的预训练过程分为三个阶段:通用能力训练、推理能力增训和退火阶段,覆盖了13.2T高质量tokens。

Pangu Ultra在长序列输入方面有什么优势?

Pangu Ultra支持最大128K tokens的长序列输入,显著提升了处理能力。

Pangu Ultra在基准测试中的表现如何?

Pangu Ultra在多个基准测试中表现优异,超越了Llama 405B和Mistral Large 2等模型。

华为盘古Ultra模型的分词器有什么特点?

Pangu Ultra的分词器采用领域感知策略,生成了包含153376词元的词汇表,提升了不同领域的处理能力。

➡️

继续阅读