作者在RunPod上进行了多GPU FLUX全精调/梦想间隔训练实验,使用了2个A100-80 GB GPU。作者建议使用Massed Compute而不是RunPod,因为RunPod的硬盘速度很慢。作者分享了不同配置下的训练速度和VRAM使用情况。对于多GPU FLUX Fine Tuning,使用至少80 GB GPU。使用Fused Backward Pass会减慢训练速度。使用A100 GPU可以达到2.89秒/次,使用2个A100 GPU可以达到4.1秒/次,速度提升为26%。如果速度下降保持不变,使用8个A100可能会有好处。对于多GPU FLUX LoRA训练,速度几乎线性增加。有时候会遇到性能较差的Pod。
本文比较了低秩适应(LoRA)与全精调在编程和数学领域的性能。尽管LoRA在大多数情况下表现不如全精调,但其正则化效果更强,能更好地保持基础模型的任务表现。研究还提出了LoRA的最佳实践和改进方法,如Fast LoRA和SuperLoRA,以提升其在多任务适应中的表现。实验结果表明,LoRA在低数据情况下表现优异,适合大规模语言模型的微调。
完成下面两步后,将自动完成登录并继续当前操作。