小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了GPU在大模型训练中的优势,特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度,适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进,强调带宽与算力平衡对性能的影响,并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02:GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了NVIDIA的CUDA生态系统,包括编译链、高层工具、分层结构、数学库(如cuBLAS和cuDNN)、通信库(如NCCL)及Triton DSL。文章比较了AMD ROCm和华为CANN的定位,分析了CUDA在大模型训练中的重要性和优势,并强调了性能调优工具Nsight的使用,以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03:CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

大模型训练应视为流水线,分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战,数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性,中训通过调整数据配比提升能力,微调教会模型理解指令,对齐阶段则使用多种算法优化模型表现。整体训练过程复杂,需关注数据、算力和工程细节。

【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

本文探讨了大模型训练中的开源框架,包括Megatron-LM、DeepSpeed和FSDP2。Megatron-LM专注于张量并行,适合超大模型;DeepSpeed通过ZeRO优化显存使用,易于集成;FSDP2提供简洁的API,支持与其他并行策略结合。文章分析了不同框架的优缺点及适用场景,帮助工程师选择合适的训练框架。

【大模型基础设施工程】07:Megatron-LM 与 DeepSpeed

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?

华为的升腾384超节点在算力上部分超越英伟达的NVL72,但在稳定性和兼容性方面仍存在不足。该设备采用自主架构,支持大模型训练,但光模块故障率高,可能导致训练不稳定。整体来看,升腾384为国内算力中心提供了新选择,推动自主可控的信创产业发展。

遥遥领先的华为升腾384超节点VS英伟达NVL72:FP16算力压H100却逊GB200,三倍功耗换自主可控值不值?

硕鼠的博客站
硕鼠的博客站 · 2025-07-29T00:57:08Z

腾讯云的两篇论文入选2025年SIGCOMM大会,解决了云计算网络性能瓶颈和大模型训练效率问题,展示了其在云网络和AI基础设施领域的领先地位。FORNAX方案通过硬件流表管理提升网络加速,星脉网络基础设施优化了大模型训练的网络架构和监控系统。

腾讯云论文入选全球顶会SIGCOMM,解决云计算大模型网络技术痛点

量子位
量子位 · 2025-05-19T09:31:38Z

随着生成式AI的发展,CoreWeave与Nebius在技术、客户和财务结构上存在显著差异。CoreWeave专注于硬件驱动的大模型训练,而Nebius提供全栈软件平台,服务更广泛的AI初创公司。两者的融资模式也不同,CoreWeave依赖高杠杆融资,Nebius则拥有稳健的现金储备。

AI 云服务之争:CoreWeave 向上,Nebius 向下

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-04-20T02:33:57Z

DeepSeek迅速适应国产芯片,推动AI产业发展。科大讯飞通过自主算力平台实现大模型训练,提升技术实力。国产AI生态协同创新,助力行业应用落地,展现出强大竞争力。未来AGI的实现依赖自主创新与技术进步。

DeepSeek无问西东!先行者早已趟平全国产之路

量子位
量子位 · 2025-02-07T00:57:49Z

飞桨团队与昇腾AI团队合作推出《飞桨x昇腾AI大模型训练与推理部署》课程,帮助开发者掌握在昇腾机器上使用飞桨进行LLM的技能。课程包括概述、训练、推理和Q&A环节,邀请五位专家进行授课。通过学习,开发者将能够掌握LLM精调与推理部署的技能。

讲师「天团」上线,共建飞桨x昇腾AI大模型实战课程

百度大脑
百度大脑 · 2024-06-24T11:59:24Z

华为云社区分享了昇腾CANN 7.0版本的大模型训练性能优化方法,包括分布式切分、内存优化、算子优化、融合和加速库等技术手段,解决了大模型训练的核心问题。CANN还提供了完备的技术栈功能,支持各种并行策略部署,具有很好的扩展能力。

昇腾CANN 7.0 黑科技:大模型训练性能优化之道

华为云官方博客
华为云官方博客 · 2023-10-23T10:30:41Z

阿里云机器学习平台PAI算法团队开发了Pai-Megatron-Patch工具,支持大模型训练、有监督微调、离线推理和强化学习等方面的应用。该工具还提供了模型格式转换和DeepSpeed-Chat、trlx等开源框架的使用方法。

阿里云PAI-灵骏大模型训练工具 Pai-Megatron-Patch 正式开源!

阿里云云栖号
阿里云云栖号 · 2023-10-02T02:00:00Z

本文介绍了基于pytorch和transformers的中文NLP训练框架,支持大模型训练和文本生成。作者提供了完整的训练和微调模型的解决方案,并整理了海量的训练数据。文章还介绍了文本分类模型的处理流程和训练步骤,以及中文GPT-2模型的训练和预测方法。此外,还介绍了从零开始训练中文CLIP模型和图像编码-解码模型的过程,并分享了VIT模型的核心数据处理方法。

带你上手基于Pytorch和Transformers的中文NLP训练框架

华为云官方博客
华为云官方博客 · 2023-08-29T09:21:29Z
大模型高效训练的关键技术|AI 盐沙龙

本文介绍了大模型高效训练的关键技术,包括ColossaI工具的功能和优势,以及异构内存管理、N维并行工作和低延迟推理系统的应用。作者还讨论了数据并行、模型并行和数据序列并行等技术,并提出了优化方案。实验结果表明,这些技术能够降低成本、提高效率。

大模型高效训练的关键技术|AI 盐沙龙

知乎每日精选
知乎每日精选 · 2023-07-21T14:48:12Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码