面向资源受限移动设备的大语言模型微调的内存高效反向传播

面向资源受限移动设备的大语言模型微调的内存高效反向传播

Apple Machine Learning Research Apple Machine Learning Research ·

我们提出了一种高效的反向传播实现(MeBP),解决了大语言模型微调的内存消耗问题。与零阶优化相比,MeBP在内存使用和计算时间之间提供了更好的平衡,收敛速度更快,性能更优。测试表明,MeBP可在iPhone 15 Pro Max上使用不到1GB内存微调参数从0.5B到4B的模型。

原文英文,约200词,阅读约需1分钟。
阅读原文