小红花·文摘

本论文提出了一种新的并行计算方法，可以使模型达到拥有万亿参数的级别，并提高了吞吐量。在3072个GPU上完成了1万亿参数模型的训练，每个GPU的吞吐量达到了理论峰值的52%。