盘古超越:在Ascend神经处理单元上推动密集大语言模型的极限
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出深度缩放三明治归一化技术,解决大型语言模型训练中的系统优化和稳定性问题。通过在13.2万亿语料上预训练,Pangu Ultra显著提升了稠密LLM能力,展示了昇腾NPUs的高效性。
🎯
关键要点
- 本研究提出深度缩放三明治归一化技术,解决大型语言模型训练中的系统优化和稳定性问题。
- 该技术有效消除了深度模型训练过程中的损失尖峰。
- 通过在13.2万亿高质量多样化的语料上预训练,Pangu Ultra显著提升了稠密LLM的能力。
- Pangu Ultra的表现达到了与参数更多的稀疏模型竞争的结果。
- 昇腾NPUs在训练超过1000亿参数的模型上展示了高效性。
➡️