AI加速引擎 PAI-TorchAcc:整体介绍与性能概述
💡
原文中文,约5300字,阅读约需13分钟。
📝
内容提要
PAI-TorchAcc是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架,提供简洁易用的接口,支持各种大模型的多种规模,兼容不同的硬件。核心技术特性包括灵活的模型接入、千亿级模型参数量、全面的训练模式、组合的分布式策略、自动计算优化和显存优化。
🎯
关键要点
- PAI-TorchAcc是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架。
- 提供简洁易用的接口,支持无缝接入HuggingFace模型,进行训练加速。
- 借助LazyTensor技术将Pytorch代码转换为静态执行图,进行分布式优化和计算优化。
- 支持1B到175B的大模型训练,训练吞吐量相较于PyTorch原生和Megatron-LM均有提升。
- 大模型训练成本高昂,需有效利用硬件资源以降低成本。
- Megatron-LM和DeepSpeed存在灵活性不足的问题,PAI-TorchAcc提供更好的模型接入和优化能力。
- PAI-TorchAcc支持多种分布式策略和混合精度训练,兼容多种硬件。
- 架构分为模型层、算法库、前端、Lowering、IR和编译优化引擎等多个层次。
- 通过LazyTensor和Symbolic Trace技术进行静态执行图的自动优化。
- PAI-TorchAcc在A100上实现了70%的MFU,支持多卡线性扩展,性能优于Megatron-LM。
- 未来将继续优化Graph Capture、自动分布式、动态Shape性能等方向。
➡️