本文介绍了MeZO,一种用于大规模语言模型微调的零阶优化方法,能够在与推理阶段相同的内存占用下训练数十亿甚至数百亿参数规模的语言模型。实验结果显示,MeZO在多个下游任务上表现出与反向传播微调相当的性能。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: