小红花·文摘

大语言模型（LLM）的关键在于显卡（GPU），但仅拥有显卡不够。大模型训练需要克服流水线并行和张量并行等挑战。为了提高GPU利用率，可以进行流水线编排优化和梯度压缩技术。此外，还可以考虑异构GPU集群增效、提高GPU集群弹性和提高GPU碎片利用率。在推理任务中，推理时延是关注的指标。为了优化推理任务，需要从新的角度进行优化，如提高内存访问速度。