OpenDiLoCo: 全球分布式低通信训练的开源框架

OpenDiLoCo 是一个开源的大规模语言模型的分布式低通信（DiLoCo）训练方法的实现和复制。我们提供了 DiLoCo 实验的可复现实现，并在使用 Hivemind 库的可扩展、去中心化训练框架中提供支持。我们通过在两个大陆和三个国家进行模型训练，并保持 90-95% 计算利用率来展示其有效性。此外，我们进行算法的计算效率和工作节点数量的可扩展性的消融研究，并展示其梯度可以使用...

OpenDiLoCo是一个开源的大规模语言模型的分布式低通信（DiLoCo）训练方法的实现和复制。通过在两个大陆和三个国家进行模型训练，并保持90-95%计算利用率来展示其有效性。此外，展示了算法的计算效率和工作节点数量的可扩展性，并展示其梯度可以使用FP16进行全约简而无性能降级。同时，将OpenDiLoCo扩展到原始工作的3倍大小，展示其对十亿参数模型的有效性。