面向资源受限移动设备的大语言模型微调的内存高效反向传播

Apple Machine Learning Research ·

我们提出了一种高效的反向传播实现（MeBP），解决了大语言模型微调的内存消耗问题。与零阶优化相比，MeBP在内存使用和计算时间之间提供了更好的平衡，收敛速度更快，性能更优。测试表明，MeBP可在iPhone 15 Pro Max上使用不到1GB内存微调参数从0.5B到4B的模型。

iPhone 15 Pro Max 内存内存消耗反向传播大语言模型微调移动

原文英文，约200词，阅读约需1分钟。