AdaZeta:自适应零阶张量列适应方法用于内存高效的大规模语言模型微调
原文中文,约200字,阅读约需1分钟。发表于: 。通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架,本文致力于改进 ZO 方法的性能和收敛性,主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题,通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。
本文介绍了MeZO,一种用于大规模语言模型微调的零阶优化方法,能够在与推理阶段相同的内存占用下训练数十亿甚至数百亿参数规模的语言模型。实验结果显示,MeZO在多个下游任务上表现出与反向传播微调相当的性能。