多 GPU 平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测,我们可以在多个 GPU 平台上训练机器学习工作负载,并且能够准确预测迭代训练时间,扩展到其他类型的机器学习工作负载,例如基于 Transformer 的自然语言处理模型,并能够生成洞察力,如快速选择最快的嵌入表分片配置。

相关推荐 去reddit讨论