小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
使用数据并行技术在多个GPU上训练模型

训练大型语言模型的过程较慢,使用多个GPU通过数据并行技术加速训练。数据并行将模型复制到每个GPU,各自处理不同的数据子集,最后聚合结果。分布式数据并行(DDP)采用多进程模型,避免多线程性能瓶颈,适合单机或多机训练,尽管DDP更复杂,但性能更优。

使用数据并行技术在多个GPU上训练模型

MachineLearningMastery.com
MachineLearningMastery.com · 2025-12-26T06:44:15Z

vLLM 是一款加速大语言模型推理的框架,解决了内存管理瓶颈,实现了 KV 缓存内存零浪费。它支持单节点和多节点的数据并行推理,用户可通过命令行参数配置模型和节点信息,并提供示例代码以便快速上手。

【vLLM 学习】Data Parallel

HyperAI超神经
HyperAI超神经 · 2025-06-12T02:16:41Z
【小记】在 Docker 中多卡并行训练深度学习模型

在深度学习中,训练方式包括模型并行和数据并行。使用torch进行数据并行时,可以选择torch.nn.DataParallel或torch.nn.DistributedDataParallel。本文主要介绍如何在Docker中使用torch.nn.DataParallel进行单机多卡训练,包括环境准备和代码调整。

【小记】在 Docker 中多卡并行训练深度学习模型

Anjhon’s Blog
Anjhon’s Blog · 2025-04-17T16:00:00Z
Hugging Face发布关于高效GPU集群上大型语言模型训练的指南

Hugging Face发布的《超大规模手册》探讨了在GPU集群上训练大型语言模型的方法。手册基于4000多次实验,重点优化吞吐量和训练效率,涵盖数据并行、张量并行等策略,并介绍内存管理和激活重计算等技术,以提升训练的稳定性和效率。

Hugging Face发布关于高效GPU集群上大型语言模型训练的指南

InfoQ
InfoQ · 2025-03-04T12:10:00Z

本文介绍了分布式训练系统的基础概念、架构和并行策略,以DeepSpeed为例介绍了在集群上训练大语言模型。分布式训练通过数据并行、模型并行和混合并行等方式实现,并使用混合精度训练和动态损失缩放等技术降低内存占用。

理论+实践,带你了解分布式训练

华为云官方博客
华为云官方博客 · 2024-05-08T08:07:17Z
宣布Ray在Databricks上的全面可用性

Databricks宣布其平台上现已支持Ray。Ray已作为机器学习运行时的一部分,无需额外安装即可启动Ray集群。Ray与Databricks的集成实现了逻辑并行和数据并行的协同生态系统。它还实现了Spark和Ray之间的直接内存数据传输,消除了中间存储的需求。该集成为强化学习、分布式自定义Python应用程序、深度学习训练、高性能计算等各种应用打开了大门。在Databricks上启动Ray集群简单易行,并与其他Databricks功能无缝集成。Ray和Databricks的合作为AI开发需求提供了强大的解决方案,将计算效率和灵活性与Databricks平台的功能相结合。

宣布Ray在Databricks上的全面可用性

Databricks
Databricks · 2024-04-16T10:38:52Z
利用 Amazon ECS 进行分布式机器学习

Amazon ECS是一个支持分布式机器学习工作负载的服务,提供简单的架构、无感升级和AWS IAM认证服务。本文介绍了如何使用PyTorch和RayTrain库在Amazon ECS上实现分布式数据并行的机器学习模型训练。通过部署基础设施、运行训练任务和清理资源等步骤,读者可以获得一个可用的示例并开始分布式机器学习的旅程。

利用 Amazon ECS 进行分布式机器学习

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-04-09T03:21:58Z

本文介绍了三种模型并行的训练方法:数据并行、张量并行和流水线并行。数据并行适用于大规模数据集的训练,将训练数据按batch维度划分到多个worker设备上并行计算。张量并行适用于巨大型模型,将模型的某些张量按行或列划分到不同设备上并行计算。流水线并行适用于序列数据的长模型训练,将整个模型按层划分为多个连续的阶段,每个阶段由一个设备负责计算。

模型并行训练技术

陈少文的博客
陈少文的博客 · 2024-04-04T00:00:00Z

本文是关于在Jean Zay上训练Megatron-DeepSpeed模型的学习笔记。使用了384张NVIDIA A100 80GB GPU和32张备用GPU,采用了数据并行、张量并行和流水线并行等技术。训练过程中遇到了硬件故障和其他问题,但最终成功完成了训练。

大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行

结构之法 算法之道
结构之法 算法之道 · 2023-08-24T06:58:54Z
并行异构计算概述

GPU和CPU在计算任务上有不同的适用性。GPU适合处理数据并行的计算密集型任务,而CPU适合处理控制密集型任务。NVIDIA的GPU计算平台有多个产品系列,包括Tegra、GeForce、Quadro、Tesla等。CUDA是一种通用的并行计算平台和编程模型,提供了运行时API和驱动API来管理GPU设备和组织线程。数据局部性在并行编程中很重要,包括时间局部性和空间局部性。

并行异构计算概述

お前はどこまで見えている
お前はどこまで見えている · 2023-06-27T15:18:19Z
Databricks上的PyTorch——介绍Spark PyTorch分发器

本文介绍了使用TorchDistributor库在Apache Spark集群上进行分布式PyTorch训练的方法,相比于Horovod更加简单易用,支持PyTorch和PyTorch Lightning的原生API,不需要重构代码。同时介绍了数据并行和模型并行两种分布式深度学习算法,并对比了TorchDistributor与现有解决方案的性能表现。

Databricks上的PyTorch——介绍Spark PyTorch分发器

Databricks
Databricks · 2023-04-20T14:26:25Z
StackLLaMA:使用人类反馈强化学习训练LLaMA的实用指南

本文介绍了使用强化学习从人类反馈中训练LLaMA模型的步骤,包括监督微调、奖励建模和强化学习的组合。使用StackExchange数据集进行训练,并使用参数高效微调技术来减少内存占用。讨论了数据并行和加速库进行训练的策略,解决了训练中的挑战。展示了训练后模型的应用示例。

StackLLaMA:使用人类反馈强化学习训练LLaMA的实用指南

Hugging Face - Blog
Hugging Face - Blog · 2023-04-05T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码