AdaZeta:自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本文介绍了MeZO,一种用于大规模语言模型微调的零阶优化方法,能够在与推理阶段相同的内存占用下训练数十亿甚至数百亿参数规模的语言模型。实验结果显示,MeZO在多个下游任务上表现出与反向传播微调相当的性能。

原文中文,约200字,阅读约需1分钟。
阅读原文