阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!
💡
原文中文,约6400字,阅读约需16分钟。
📝
内容提要
TePDist是阿里云PAI团队自研的全自动分布式深度学习系统,采用Client/Server分离架构,以HLO IR作为Server端输入,具有特色的流水线并行规划,能够提供基本相当的性能。后续计划定期优化TePDist系统,并完成产品化工作。
🎯
关键要点
- TePDist是阿里云PAI团队自研的全自动分布式深度学习系统。
- TePDist采用Client/Server分离架构,以HLO IR作为Server端输入。
- TePDist能够自动探索并实施分布式并行策略,解决深度学习模型并行策略的自动搜索问题。
- TePDist分为两个部分:在HLO IR上进行策略搜索和高效运行执行计划的分布式执行引擎。
- TePDist支持不同优化级别,用户可以选择O2和O3级别以控制策略搜索时间。
- TePDist通过多种手段将策略探索问题拆解成优化子问题,有效管理问题复杂性。
- TePDist具有特色的流水线并行规划,使用ILP Solver自动寻找通讯量最小的切分方案。
- TePDist的执行引擎支持无损分布式初始化和复杂通信域的管理。
- TePDist在性能实验中表现出与其他框架相当的性能,且在某些情况下有性能提升。
- 后续计划定期优化TePDist系统,并完成产品化工作。
➡️