在RunPod上的多GPU FLUX全精调实验及要求与结论

在RunPod上的多GPU FLUX全精调实验及要求与结论

💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

作者在RunPod上进行了多GPU FLUX全精调/梦想间隔训练实验,使用了2个A100-80 GB GPU。作者建议使用Massed Compute而不是RunPod,因为RunPod的硬盘速度很慢。作者分享了不同配置下的训练速度和VRAM使用情况。对于多GPU FLUX Fine Tuning,使用至少80 GB GPU。使用Fused Backward Pass会减慢训练速度。使用A100 GPU可以达到2.89秒/次,使用2个A100 GPU可以达到4.1秒/次,速度提升为26%。如果速度下降保持不变,使用8个A100可能会有好处。对于多GPU FLUX LoRA训练,速度几乎线性增加。有时候会遇到性能较差的Pod。

🎯

关键要点

  • 作者在RunPod上进行了多GPU FLUX全精调/梦想间隔训练实验,使用了2个A100-80 GB GPU。
  • 建议使用Massed Compute而不是RunPod,因为RunPod的硬盘速度很慢。
  • 分享了不同配置下的训练速度和VRAM使用情况。
  • 多GPU FLUX Fine Tuning需要至少80 GB的GPU。
  • 使用Fused Backward Pass会减慢训练速度,没有VRAM使用上的改善。
  • 使用A100 GPU可以达到2.89秒/次,使用2个A100 GPU可以达到4.1秒/次,速度提升为26%。
  • 如果速度下降保持不变,使用8个A100可能会有好处,但需要进行实验和计算速度提升。
  • 单个L40S GPU目前会更便宜且更快。
  • 多GPU FLUX LoRA训练的速度几乎线性增加。
  • 有时会遇到性能较差的Pod,导致相同配置下的速度差异很大。
➡️

继续阅读