Databricks上的PyTorch——介绍Spark PyTorch分发器
原文英文,约1400词,阅读约需5分钟。发表于: 。Background and Motives Deep Learning algorithms are complex and time consuming to train, but are quickly moving from the lab to production because...
本文介绍了使用TorchDistributor库在Apache Spark集群上进行分布式PyTorch训练的方法,相比于Horovod更加简单易用,支持PyTorch和PyTorch Lightning的原生API,不需要重构代码。同时介绍了数据并行和模型并行两种分布式深度学习算法,并对比了TorchDistributor与现有解决方案的性能表现。