💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

PatrickStar是一个基于PyTorch的预训练模型并行训练框架,采用动态内存管理和异构训练策略,降低GPU内存使用,支持大模型训练,特别适合硬件受限环境下的预训练和大规模微调。

🎯

关键要点

  • PatrickStar是一个基于PyTorch的预训练模型并行训练框架。
  • 采用动态内存管理和异构训练策略,降低GPU内存使用。
  • 支持大模型训练,特别适合硬件受限环境下的预训练和大规模微调。
  • 通过分块动态内存调度管理激活和参数,降低GPU内存使用。
  • 异构卸载将非即时数据移动到CPU,支持混合CPU/GPU内存使用。
  • 优化多GPU和多节点设置的集体操作,提高通信效率和可扩展性。
  • 与DeepSpeed配置风格相似,便于迁移。
  • 适用于预训练和大规模微调,尤其是在硬件受限的情况下。
  • 实现分块内存管理和运行时动态调度,仅保留当前计算所需的块。
  • 优化多卡效率的集体通信,并提供V100/A100集群的基准和示例。
  • 该项目在BSD-3-Clause下发布。
➡️

继续阅读