AdaZeta:自适应零阶张量列适应方法用于内存高效的大规模语言模型微调

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文介绍了MeZO,一种用于大规模语言模型微调的零阶优化方法,能够在与推理阶段相同的内存占用下训练数十亿甚至数百亿参数规模的语言模型。实验结果显示,MeZO在多个下游任务上表现出与反向传播微调相当的性能。

🎯

关键要点

  • 提出了一种名为MeZO的零阶优化方法。
  • MeZO用于大规模语言模型的微调。
  • 该方法实现了与推理阶段相同的内存占用。
  • 理论上认为优化大型模型的速度极慢。
  • 实验结果显示,MeZO能够使用单个A100 80GB GPU训练数十亿甚至数百亿参数规模的语言模型。
  • MeZO在多个下游任务上表现出与反向传播微调相当的性能。
➡️

继续阅读