作者在RunPod上进行了多GPU FLUX全精调/梦想间隔训练实验,使用了2个A100-80 GB GPU。作者建议使用Massed Compute而不是RunPod,因为RunPod的硬盘速度很慢。作者分享了不同配置下的训练速度和VRAM使用情况。对于多GPU FLUX Fine Tuning,使用至少80 GB GPU。使用Fused Backward Pass会减慢训练速度。使用A100 GPU可以达到2.89秒/次,使用2个A100 GPU可以达到4.1秒/次,速度提升为26%。如果速度下降保持不变,使用8个A100可能会有好处。对于多GPU FLUX LoRA训练,速度几乎线性增加。有时候会遇到性能较差的Pod。
完成下面两步后,将自动完成登录并继续当前操作。