Grass: 结构稀疏梯度的计算高效低内存 LLM 训练

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

通过SLTrain方法,将权重参数化为低秩和稀疏矩阵之和,提高了预训练性能。SLTrain几乎没有额外参数和内存开销,但实现了与完全秩训练相当的性能。结合量化和逐层更新,SLTrain可以降低内存要求高达73%。

🎯

关键要点

  • SLTrain方法通过将权重参数化为低秩和稀疏矩阵之和,提高了预训练性能。
  • SLTrain几乎没有额外的参数和内存开销。
  • SLTrain实现了与完全秩训练相当的性能。
  • 结合量化和逐层更新,SLTrain可以将内存要求降低高达73%。
🏷️

标签

➡️

继续阅读