小红花·文摘

本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内存层级及Tensor Core的演进，强调带宽与算力平衡对性能的影响，并提出了优化策略以提高GPU在解码阶段的利用率。

【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink

土法炼钢兴趣小组的博客 ·

本文探讨了NVIDIA的CUDA生态系统，包括编译链、高层工具、分层结构、数学库（如cuBLAS和cuDNN）、通信库（如NCCL）及Triton DSL。文章比较了AMD ROCm和华为CANN的定位，分析了CUDA在大模型训练中的重要性和优势，并强调了性能调优工具Nsight的使用，以及FP8训练的潜在问题和解决方案。

【大模型基础设施工程】03：CUDA 生态——cuBLAS、cuDNN、NCCL、Triton、CUTLASS

土法炼钢兴趣小组的博客 ·

大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性，中训通过调整数据配比提升能力，微调教会模型理解指令，对齐阶段则使用多种算法优化模型表现。整体训练过程复杂，需关注数据、算力和工程细节。

【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客 ·

本文探讨了大模型训练中的开源框架，包括Megatron-LM、DeepSpeed和FSDP2。Megatron-LM专注于张量并行，适合超大模型；DeepSpeed通过ZeRO优化显存使用，易于集成；FSDP2提供简洁的API，支持与其他并行策略结合。文章分析了不同框架的优缺点及适用场景，帮助工程师选择合适的训练框架。

【大模型基础设施工程】07：Megatron-LM 与 DeepSpeed

土法炼钢兴趣小组的博客 ·

遥遥领先的华为升腾384超节点VS英伟达NVL72：FP16算力压H100却逊GB200，三倍功耗换自主可控值不值？

硕鼠的博客站 ·

腾讯云的两篇论文入选2025年SIGCOMM大会，解决了云计算网络性能瓶颈和大模型训练效率问题，展示了其在云网络和AI基础设施领域的领先地位。FORNAX方案通过硬件流表管理提升网络加速，星脉网络基础设施优化了大模型训练的网络架构和监控系统。

腾讯云论文入选全球顶会SIGCOMM，解决云计算大模型网络技术痛点

量子位 ·

随着生成式AI的发展，CoreWeave与Nebius在技术、客户和财务结构上存在显著差异。CoreWeave专注于硬件驱动的大模型训练，而Nebius提供全栈软件平台，服务更广泛的AI初创公司。两者的融资模式也不同，CoreWeave依赖高杠杆融资，Nebius则拥有稳健的现金储备。

AI 云服务之争：CoreWeave 向上，Nebius 向下

OneFlow深度学习框架 ·

DeepSeek迅速适应国产芯片，推动AI产业发展。科大讯飞通过自主算力平台实现大模型训练，提升技术实力。国产AI生态协同创新，助力行业应用落地，展现出强大竞争力。未来AGI的实现依赖自主创新与技术进步。

DeepSeek无问西东！先行者早已趟平全国产之路

量子位 ·

飞桨团队与昇腾AI团队合作推出《飞桨x昇腾AI大模型训练与推理部署》课程，帮助开发者掌握在昇腾机器上使用飞桨进行LLM的技能。课程包括概述、训练、推理和Q&A环节，邀请五位专家进行授课。通过学习，开发者将能够掌握LLM精调与推理部署的技能。

讲师「天团」上线，共建飞桨x昇腾AI大模型实战课程

百度大脑 ·

华为云社区分享了昇腾CANN 7.0版本的大模型训练性能优化方法，包括分布式切分、内存优化、算子优化、融合和加速库等技术手段，解决了大模型训练的核心问题。CANN还提供了完备的技术栈功能，支持各种并行策略部署，具有很好的扩展能力。

昇腾CANN 7.0 黑科技：大模型训练性能优化之道

华为云官方博客 ·

阿里云机器学习平台PAI算法团队开发了Pai-Megatron-Patch工具，支持大模型训练、有监督微调、离线推理和强化学习等方面的应用。该工具还提供了模型格式转换和DeepSpeed-Chat、trlx等开源框架的使用方法。

阿里云PAI-灵骏大模型训练工具 Pai-Megatron-Patch 正式开源！

阿里云云栖号 ·

本文介绍了基于pytorch和transformers的中文NLP训练框架，支持大模型训练和文本生成。作者提供了完整的训练和微调模型的解决方案，并整理了海量的训练数据。文章还介绍了文本分类模型的处理流程和训练步骤，以及中文GPT-2模型的训练和预测方法。此外，还介绍了从零开始训练中文CLIP模型和图像编码-解码模型的过程，并分享了VIT模型的核心数据处理方法。

带你上手基于Pytorch和Transformers的中文NLP训练框架

华为云官方博客 ·

大模型高效训练的关键技术｜AI 盐沙龙

知乎每日精选 ·