LoCo:大规模模型训练的低比特通信适配器
📝
内容提要
为了提高大规模模型的训练效率,使用低位梯度通信将全精度梯度在本地 GPU 节点上压缩为低精度梯度,以实现 GPU 节点之间更高效的梯度同步。然而,由于压缩信息的丢失,这往往会降低训练质量。为了解决这个问题,本文提出了低位通信适配器(LoCo),它在压缩之前在本地 GPU 节点上进行梯度补偿,以确保有效的同步而不影响训练质量。具体来说,LoCo...
➡️