算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了
💡
原文中文,约2200字,阅读约需6分钟。
📝
内容提要
新技术“noise_step”使得在1.58-bit低精度下训练GPT-3模型成为可能,算力和存储需求分别减少97%和90%。该方法无需反向传播,通过随机性生成梯度估计,适合分布式训练,提升效率。
🎯
关键要点
- 新技术'noise_step'允许在1.58-bit低精度下训练GPT-3模型,算力需求减少97%,存储需求减少90%。
- 该方法无需反向传播,通过随机性生成梯度估计,适合分布式训练,提升效率。
- noise_step的核心在于允许模型直接在低精度下训练,而不需要传统的反向传播或动量方法。
- 使用noise_step可以减少存储需求,因为不需要存储大量的扰动向量。
- 训练步骤可以存储而非权重,可能大幅缩小模型尺寸,提升下载速度。
- 该方法允许对过去的训练步骤进行编辑,提高训练过程的控制和调整能力。
- 在分布式训练中,noise_step显著降低了通信量,提高了训练效率。
- 作者在分享论文时遇到arXiv拒绝的问题,现将论文放在GitHub上供人查看。
➡️