新技术“noise_step”使得在1.58-bit低精度下训练GPT-3模型成为可能,算力和存储需求分别减少97%和90%。该方法无需反向传播,通过随机性生成梯度估计,适合分布式训练,提升效率。
完成下面两步后,将自动完成登录并继续当前操作。