小红花·文摘

机器之心 ·

本研究提出深度缩放三明治归一化技术，解决大型语言模型训练中的系统优化和稳定性问题。通过在13.2万亿语料上预训练，Pangu Ultra显著提升了稠密LLM能力，展示了昇腾NPUs的高效性。

BriefGPT - AI 论文速递 ·