算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

新技术“noise_step”使得在1.58-bit低精度下训练GPT-3模型成为可能,算力和存储需求分别减少97%和90%。该方法无需反向传播,通过随机性生成梯度估计,适合分布式训练,提升效率。

🎯

关键要点

  • 新技术'noise_step'允许在1.58-bit低精度下训练GPT-3模型,算力需求减少97%,存储需求减少90%。
  • 该方法无需反向传播,通过随机性生成梯度估计,适合分布式训练,提升效率。
  • noise_step的核心在于允许模型直接在低精度下训练,而不需要传统的反向传播或动量方法。
  • 使用noise_step可以减少存储需求,因为不需要存储大量的扰动向量。
  • 训练步骤可以存储而非权重,可能大幅缩小模型尺寸,提升下载速度。
  • 该方法允许对过去的训练步骤进行编辑,提高训练过程的控制和调整能力。
  • 在分布式训练中,noise_step显著降低了通信量,提高了训练效率。
  • 作者在分享论文时遇到arXiv拒绝的问题,现将论文放在GitHub上供人查看。
➡️

继续阅读