小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了大模型训练中的开源框架,包括Megatron-LM、DeepSpeed和FSDP2。Megatron-LM专注于张量并行,适合超大模型;DeepSpeed通过ZeRO优化显存使用,易于集成;FSDP2提供简洁的API,支持与其他并行策略结合。文章分析了不同框架的优缺点及适用场景,帮助工程师选择合适的训练框架。

【大模型基础设施工程】07:Megatron-LM 与 DeepSpeed

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
DeepSpeed Chat 简介

DeepSpeed可通过pip安装,安装后使用ds_report检查成功与否。如遇CUDA_HOME错误,需安装nvcc并确认CUDA版本。使用本地数据集时,遵循InstructGPT的RLHF训练流程,包括监督微调和奖励模型微调。

DeepSpeed Chat 简介

文艺数学君
文艺数学君 · 2025-09-17T23:48:23Z
在 Amazon EKS 上使用 DeepSpeed 进行 Llama 2 分布式训练

近年来,深度学习模型日益复杂,单机训练效率低下。分布式训练技术可将负载分散到多台机器上,常用框架包括DeepSpeed和Horovod。本文介绍如何在亚马逊云上使用DeepSpeed进行Llama 2的分布式训练,涵盖环境搭建、Docker镜像构建及训练代码准备,以实现高效模型训练。

在 Amazon EKS 上使用 DeepSpeed 进行 Llama 2 分布式训练

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-06-24T08:25:25Z
PyTorch基金会欢迎vLLM和DeepSpeed作为托管项目

PyTorch基金会宣布扩展,成为其他开源AI项目的伞形基金会。首个项目vLLM和DeepSpeed,分别专注于加速大语言模型推理和简化AI工作负载的分布式训练,旨在推动开源AI技术的民主化与创新。

PyTorch基金会欢迎vLLM和DeepSpeed作为托管项目

The New Stack
The New Stack · 2025-05-07T10:00:02Z
在使用DeepSpeed训练时遇到张量大小不匹配的问题

在使用Hugging Face的Trainer和DeepSpeed集成训练模型时,遇到张量大小不匹配的错误,具体是张量a的大小(50)与张量b的大小(3)在非单例维度上不匹配。已检查输入ids和标签形状一致,确认批量大小,并确保模型在设备上正确放置。

在使用DeepSpeed训练时遇到张量大小不匹配的问题

DEV Community
DEV Community · 2024-12-14T07:56:50Z

本文介绍了DeepSpeed的基本操作,包括使用DeepSpeedEngine进行模型训练、反向传播和优化器更新。用户可以通过简单的API实现分布式训练及模型的保存与恢复。DeepSpeed支持多机多卡训练,配置文件为JSON格式,并使用hostfile进行节点管理,以确保环境变量的一致性。

deepspeed快速上手教程

李文举
李文举 · 2023-09-27T03:20:08Z

本文介绍了DeepSpeed Chat中phase3的训练过程,包括使用RLHF Finetuning进行经验采集,对prompt进行flip翻转操作以避免不合理的生成,以及RM模型对对话评分的处理策略。同时,文章还介绍了模型的初始化和经验数据的获取过程。

从零实现带RLHF的类ChatGPT:逐行解析微软DeepSpeed Chat的源码

结构之法 算法之道
结构之法 算法之道 · 2023-09-17T02:46:29Z

本文是关于在Jean Zay上训练Megatron-DeepSpeed模型的学习笔记。使用了384张NVIDIA A100 80GB GPU和32张备用GPU,采用了数据并行、张量并行和流水线并行等技术。训练过程中遇到了硬件故障和其他问题,但最终成功完成了训练。

大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行

结构之法 算法之道
结构之法 算法之道 · 2023-08-24T06:58:54Z

Incredibly Fast BLOOM Inference with DeepSpeed and Accelerate

Hugging Face - Blog
Hugging Face - Blog · 2022-09-16T00:00:00Z

Accelerate Large Model Training using DeepSpeed

Hugging Face - Blog
Hugging Face - Blog · 2022-06-28T00:00:00Z

Fit More and Train Faster With ZeRO via DeepSpeed and FairScale

Hugging Face - Blog
Hugging Face - Blog · 2021-01-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码