AI加速引擎 PAI-TorchAcc:整体介绍与性能概述

💡 原文中文,约5300字,阅读约需13分钟。
📝

内容提要

PAI-TorchAcc是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架,提供简洁易用的接口,支持各种大模型的多种规模,兼容不同的硬件。核心技术特性包括灵活的模型接入、千亿级模型参数量、全面的训练模式、组合的分布式策略、自动计算优化和显存优化。

🎯

关键要点

  • PAI-TorchAcc是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架。
  • 提供简洁易用的接口,支持无缝接入HuggingFace模型,进行训练加速。
  • 借助LazyTensor技术将Pytorch代码转换为静态执行图,进行分布式优化和计算优化。
  • 支持1B到175B的大模型训练,训练吞吐量相较于PyTorch原生和Megatron-LM均有提升。
  • 大模型训练成本高昂,需有效利用硬件资源以降低成本。
  • Megatron-LM和DeepSpeed存在灵活性不足的问题,PAI-TorchAcc提供更好的模型接入和优化能力。
  • PAI-TorchAcc支持多种分布式策略和混合精度训练,兼容多种硬件。
  • 架构分为模型层、算法库、前端、Lowering、IR和编译优化引擎等多个层次。
  • 通过LazyTensor和Symbolic Trace技术进行静态执行图的自动优化。
  • PAI-TorchAcc在A100上实现了70%的MFU,支持多卡线性扩展,性能优于Megatron-LM。
  • 未来将继续优化Graph Capture、自动分布式、动态Shape性能等方向。
➡️

继续阅读