华为发布了基于昇腾的135B参数的千亿级语言模型Pangu Ultra,采用94层Transformer结构。该模型在多个领域超越了Llama 405B,解决了训练稳定性问题,提升了算力利用率,并通过优化分词器和数据质量支持长序列输入,验证了技术路径的有效性。
本研究提出深度缩放三明治归一化技术,解决大型语言模型训练中的系统优化和稳定性问题。通过在13.2万亿语料上预训练,Pangu Ultra显著提升了稠密LLM能力,展示了昇腾NPUs的高效性。
完成下面两步后,将自动完成登录并继续当前操作。