本论文提出了一种新的并行计算方法,可以使模型达到拥有万亿参数的级别,并提高了吞吐量。在3072个GPU上完成了1万亿参数模型的训练,每个GPU的吞吐量达到了理论峰值的52%。
完成下面两步后,将自动完成登录并继续当前操作。