深度学习弹性数据流水线系统 GoldMiner,大幅提升任务和集群效率

💡 原文中文,约3800字,阅读约需9分钟。
📝

内容提要

阿里云机器学习平台PAI与北京大学杨智老师团队合作的论文《GoldMiner: Elastic Scaling of Training Data Pre-Processing Pipelines for Deep Learning》被数据库领域顶会SIGMOD 2023接收。GoldMiner通过分离数据预处理流水线和模型训练部分,实现了高效的并行加速和弹性伸缩,解决了数据预处理瓶颈问题,提升训练性能。该论文通过自动计算图分析识别无状态的数据预处理计算,并利用无状态性实现了自动化的图切分和数据传递,提供了动态调整资源的data worker调度器。在真实推荐模型上的评测中,GoldMiner可为用户模型加速1.43倍,并削减13%的训练成本。

🎯

关键要点

  • 阿里云机器学习平台PAI与北京大学杨智老师团队合作的论文《GoldMiner》被SIGMOD 2023接收。
  • GoldMiner通过分离数据预处理流水线和模型训练部分,实现高效并行加速和弹性伸缩。
  • GoldMiner解决了数据预处理瓶颈问题,提升训练性能,实验显示可提升训练性能达12.1倍。
  • 数据预处理瓶颈影响训练性能和集群资源利用效率,尤其在云场景中更为严重。
  • 将GPU训练和CPU数据预处理分离可以提高资源分配效率,缓解资源碎片问题。
  • 现有技术在数据预处理分离执行方面存在计算切分效率、用户代码侵入性和集群调度结合等挑战。
  • GoldMiner使用data worker和training worker分别进行数据预处理和训练,自动识别无状态计算。
  • GoldMiner通过自动化图切分和动态资源调整,提升集群效率和资源利用率。
  • GoldMiner在真实推荐模型上评测显示可加速1.43倍,削减13%的训练成本。
  • GoldMiner的PyTorch版本即将与PAI-DLC集成,提供数据预处理加速能力。
➡️

继续阅读