探索GPU到GPU的通信:超计算机互连的洞察
原文中文,约300字,阅读约需1分钟。发表于: 。本研究探讨了在快速发展的超计算机环境中,多GPU节点的性能评估问题,特别是不同互连技术带来的挑战。通过对Alps、Leonardo和LUMI三种超计算机的深入分析,发现仍存在未被利用的带宽及优化机会,旨在为多GPU超计算提供实用指导。研究结果对系统架构师和软件开发者具有重要参考价值。
我们提出了一种新颖的GPU集群调度器,用于分布式深度学习工作负载。通过对预期通信网络延迟的敏感性实现了基于邻近性的资源整合。经过大规模实验证明,与现有的调度方法相比,我们的调度器可以提供多达69%的端到端完成时间的改进,同时将平均作业完成时间降低多达83%,并将通信开销最小化多达98%。