面向资源受限移动设备的大语言模型微调的内存高效反向传播
我们提出了一种高效的反向传播实现(MeBP),解决了大语言模型微调的内存消耗问题。与零阶优化相比,MeBP在内存使用和计算时间之间提供了更好的平衡,收敛速度更快,性能更优。测试表明,MeBP可在iPhone 15 Pro Max上使用不到1GB内存微调参数从0.5B到4B的模型。
原文英文,约200词,阅读约需1分钟。
我们提出了一种高效的反向传播实现(MeBP),解决了大语言模型微调的内存消耗问题。与零阶优化相比,MeBP在内存使用和计算时间之间提供了更好的平衡,收敛速度更快,性能更优。测试表明,MeBP可在iPhone 15 Pro Max上使用不到1GB内存微调参数从0.5B到4B的模型。