小红花·文摘 - 小红花技术领袖俱乐部

伟大的迁移：为什么每个AI平台都在向Kubernetes汇聚

伟大的迁移：为什么每个AI平台都在向Kubernetes汇聚

Cloud Native Computing Foundation ·

从零开始构建管道并行性

从零开始构建管道并行性

freeCodeCamp.org ·

nanobot-checkpoint_manager

nanobot-checkpoint_manager

plus studio ·

谷歌Metrax为JAX带来了预定义的模型评估指标

谷歌Metrax为JAX带来了预定义的模型评估指标

InfoQ ·

Discord如何将其机器学习平台从单GPU工作流扩展到共享Ray集群

Discord如何将其机器学习平台从单GPU工作流扩展到共享Ray集群

InfoQ ·

强化 FSDP2 分布式训练支持，摩尔线程发布 Torch-MUSA v2.1.1

强化 FSDP2 分布式训练支持，摩尔线程发布 Torch-MUSA v2.1.1

实时互动网 ·

`local_state_dict` 在 PyTorch 中用于分布式训练的参数保存与加载，特别适合完全分片数据并行（FSDP）。使用时需确保模块结构兼容。示例代码展示了如何高效管理局部状态字典的保存与加载。

【vLLM 学习】Load Sharded State

HyperAI超神经 ·

SuperX发布全新AI服务器，搭载英伟达最新一代Blackwell架构GPU

SuperX发布全新AI服务器，搭载英伟达最新一代Blackwell架构GPU

全球TMT-美通国际 ·

HyperAI 超神经主办的 Meet AI Complier 技术沙龙已举办至第七期，重点讨论分布式训练中的通信效率与 Python 编程。郑思泽介绍了 Triton-distributed 的优化策略，强调通信与计算的重叠机制，以提升整体效率。该项目旨在解决分布式系统的性能瓶颈，推动技术进步，欢迎开发者参与。

训练性能显著提升，字节跳动郑思泽详解 Triton-distributed 框架，实现大模型高效分布式通信与计算融合

HyperAI超神经 ·

在 Amazon EKS 上使用 DeepSpeed 进行 Llama 2 分布式训练

在 Amazon EKS 上使用 DeepSpeed 进行 Llama 2 分布式训练

亚马逊AWS官方博客 ·

2025年PyTorch的NN模块是什么？

2025年PyTorch的NN模块是什么？

DEV Community ·

本研究提出Galvatron系统，自动识别大规模基础模型训练中的最佳混合策略，显著提升训练效率，优化分布式训练的简化与高效性。

Galvatron: An Automated Distributed System for Efficient Training of Large-Scale Foundation Models

BriefGPT - AI 论文速递 ·

大模型推动人工智能领域的分布式训练技术升级。飞桨框架3.0引入自动并行技术，简化开发流程，降低成本，支持多种并行策略，提升训练性能。开发者通过少量代码即可实现高效的分布式训练，显著提高开发效率和模型性能。

大模型训练代码开发再提效——3行代码就能实现分布式训练！飞桨框架3.0自动并行功能现已正式上线！

百度大脑 ·

火山如何应对大型语言模型训练和推理挑战

火山如何应对大型语言模型训练和推理挑战

The New Stack ·

介绍JobSet

介绍JobSet

Kubernetes Blog ·

DeepSeek 开源了适用于 MoE 模型的通信库 DeepEP，旨在提升训练和推理过程中的通信效率。该库支持快速数据交换、低延迟和高吞吐量，优化了 GPU 资源使用，适合大型模型的分布式训练。

DeepSeek开源周2/5：开源DeepEP专家并行通信库解决MoE模型通信效率问题

蓝点网 ·

如何使用模型并行微调大型语言模型（LLM）

如何使用模型并行微调大型语言模型（LLM）

DEV Community ·

月之暗面团队改进了OpenAI的Muon优化器，使算力需求降低48%。新版本适用于更大模型，并验证了在分布式训练中的可行性。改进包括引入权重衰减和调整参数更新尺度，提升了训练效率和性能。

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

量子位 ·

本研究提出了一种分布式价值分解网络（DVDN），旨在解决部分可观测条件下的分布式训练问题。DVDN能够生成联合Q函数并将其分解为各个智能体的Q函数，适用于无法集中训练的场景。研究结果表明，DVDN在十个多智能体强化学习任务中表现出与集中训练相似的效果。

分布式价值分解网络与网络化智能体

BriefGPT - AI 论文速递 ·

一种新的人工智能训练方法通过连续参数流在64个GPU上实现90%的效率

一种新的人工智能训练方法通过连续参数流在64个GPU上实现90%的效率

DEV Community ·