盘古超越:在Ascend神经处理单元上推动密集大语言模型的极限

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出深度缩放三明治归一化技术,解决大型语言模型训练中的系统优化和稳定性问题。通过在13.2万亿语料上预训练,Pangu Ultra显著提升了稠密LLM能力,展示了昇腾NPUs的高效性。

🎯

关键要点

  • 本研究提出深度缩放三明治归一化技术,解决大型语言模型训练中的系统优化和稳定性问题。
  • 该技术有效消除了深度模型训练过程中的损失尖峰。
  • 通过在13.2万亿高质量多样化的语料上预训练,Pangu Ultra显著提升了稠密LLM的能力。
  • Pangu Ultra的表现达到了与参数更多的稀疏模型竞争的结果。
  • 昇腾NPUs在训练超过1000亿参数的模型上展示了高效性。
➡️

继续阅读