小红花·文摘 - 小红花技术领袖俱乐部

使用Micro-DDP扩展您的AI模型

使用Micro-DDP扩展您的AI模型

freeCodeCamp.org ·

使用数据并行技术在多个GPU上训练模型

使用数据并行技术在多个GPU上训练模型

MachineLearningMastery.com ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，实现了 KV 缓存内存零浪费。它支持单节点和多节点的数据并行推理，用户可通过命令行参数配置模型和节点信息，并提供示例代码以便快速上手。

【vLLM 学习】Data Parallel

HyperAI超神经 ·

【小记】在 Docker 中多卡并行训练深度学习模型

Anjhon’s Blog ·

Hugging Face发布关于高效GPU集群上大型语言模型训练的指南

Hugging Face发布关于高效GPU集群上大型语言模型训练的指南

InfoQ ·

本文介绍了一种基于PyTorch和Caffe2的深度学习推荐模型，采用模型并行和数据并行技术以优化内存使用和计算效率。研究探讨了多核平台和异构内存架构HEAM，显著提升个性化推荐系统的性能和能效。此外，提出了MEM-REC和NicePIM等技术，以提高推荐系统的训练效率和降低能耗。

UpDLRM: 使用真实世界的 PIM 架构加速个性化推荐

BriefGPT - AI 论文速递 ·

本文介绍了分布式训练系统的基础概念、架构和并行策略，以DeepSpeed为例介绍了在集群上训练大语言模型。分布式训练通过数据并行、模型并行和混合并行等方式实现，并使用混合精度训练和动态损失缩放等技术降低内存占用。

理论+实践，带你了解分布式训练

华为云官方博客 ·

宣布Ray在Databricks上的全面可用性

宣布Ray在Databricks上的全面可用性

Databricks ·

利用 Amazon ECS 进行分布式机器学习

利用 Amazon ECS 进行分布式机器学习

亚马逊AWS官方博客 ·

本文介绍了三种模型并行的训练方法：数据并行、张量并行和流水线并行。数据并行适用于大规模数据集的训练，将训练数据按batch维度划分到多个worker设备上并行计算。张量并行适用于巨大型模型，将模型的某些张量按行或列划分到不同设备上并行计算。流水线并行适用于序列数据的长模型训练，将整个模型按层划分为多个连续的阶段，每个阶段由一个设备负责计算。

模型并行训练技术

陈少文的博客 ·

本文是关于在Jean Zay上训练Megatron-DeepSpeed模型的学习笔记。使用了384张NVIDIA A100 80GB GPU和32张备用GPU，采用了数据并行、张量并行和流水线并行等技术。训练过程中遇到了硬件故障和其他问题，但最终成功完成了训练。

大模型并行训练指南：通俗理解Megatron-DeepSpeed之模型并行与数据并行

结构之法算法之道 ·

并行异构计算概述

并行异构计算概述

お前はどこまで見えている ·

Databricks上的PyTorch——介绍Spark PyTorch分发器

Databricks上的PyTorch——介绍Spark PyTorch分发器

Databricks ·

StackLLaMA：使用人类反馈强化学习训练LLaMA的实用指南

StackLLaMA：使用人类反馈强化学习训练LLaMA的实用指南

Hugging Face - Blog ·