小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
伟大的迁移:为什么每个AI平台都在向Kubernetes汇聚

Kubernetes已从支持无状态Web服务发展为统一平台,处理数据、模型训练和推理。到2026年,82%的容器用户将在生产中使用Kubernetes,66%的组织将其应用于生成AI模型,支持大规模数据处理和分布式训练,促进AI代理的自主工作。

伟大的迁移:为什么每个AI平台都在向Kubernetes汇聚

Cloud Native Computing Foundation
Cloud Native Computing Foundation · 2026-03-05T12:00:00Z
从零开始构建管道并行性

管道并行性通过将大型模型分布到多个GPU上,加速AI模型训练。课程从基础开始,逐步构建分布式训练系统,涵盖模型分区、通信原语和三种管道调度方法。

从零开始构建管道并行性

freeCodeCamp.org
freeCodeCamp.org · 2026-01-27T15:53:02Z
nanobot-checkpoint_manager

本文介绍了深度学习训练中检查点管理的核心技巧,包括向后兼容的配置演化、分布式训练状态管理、设备兼容的数据类型处理和内存高效的模型加载。强调了多层次API设计和人类可读的元数据存储,适合深度学习工程化实践。

nanobot-checkpoint_manager

plus studio
plus studio · 2026-01-18T00:00:00Z
谷歌Metrax为JAX带来了预定义的模型评估指标

Google最近开源了Metrax,这是一个JAX库,提供分类、回归、NLP、视觉和音频模型的标准化性能指标,支持分布式和大规模训练,确保指标实现符合最佳实践。

谷歌Metrax为JAX带来了预定义的模型评估指标

InfoQ
InfoQ · 2025-12-20T15:00:00Z
Discord如何将其机器学习平台从单GPU工作流扩展到共享Ray集群

Discord重建了机器学习平台,通过标准化Ray和Kubernetes实现分布式训练自动化,广告排名指标提升200%。Uber和Spotify也在进行类似转型,强调平台的可预测性和一致性。尽管有成功案例,但内部平台复杂性引发了设计与维护的权衡警示。

Discord如何将其机器学习平台从单GPU工作流扩展到共享Ray集群

InfoQ
InfoQ · 2025-12-03T11:34:00Z
强化 FSDP2 分布式训练支持,摩尔线程发布 Torch-MUSA v2.1.1

摩尔线程发布了Torch-MUSA v2.1.1,增强了对大规模深度学习模型的支持,优化了编译性能和内存管理,新增分布式训练和3D支持,简化了集成流程,提升了用户体验。

强化 FSDP2 分布式训练支持,摩尔线程发布 Torch-MUSA v2.1.1

实时互动网
实时互动网 · 2025-09-10T07:15:29Z

`local_state_dict` 在 PyTorch 中用于分布式训练的参数保存与加载,特别适合完全分片数据并行(FSDP)。使用时需确保模块结构兼容。示例代码展示了如何高效管理局部状态字典的保存与加载。

【vLLM 学习】Load Sharded State

HyperAI超神经
HyperAI超神经 · 2025-08-08T04:57:07Z
SuperX发布全新AI服务器,搭载英伟达最新一代Blackwell架构GPU

Super X AI Technology Limited发布了SuperX XN9160-B200 AI服务器,搭载英伟达Blackwell架构GPU,专为大规模分布式训练与推理设计,适用于多种高性能计算应用,具备高性能显存和冗余电源,支持远程管理。

SuperX发布全新AI服务器,搭载英伟达最新一代Blackwell架构GPU

全球TMT-美通国际
全球TMT-美通国际 · 2025-07-31T01:51:08Z

HyperAI 超神经主办的 Meet AI Complier 技术沙龙已举办至第七期,重点讨论分布式训练中的通信效率与 Python 编程。郑思泽介绍了 Triton-distributed 的优化策略,强调通信与计算的重叠机制,以提升整体效率。该项目旨在解决分布式系统的性能瓶颈,推动技术进步,欢迎开发者参与。

训练性能显著提升,字节跳动郑思泽详解 Triton-distributed 框架,实现大模型高效分布式通信与计算融合

HyperAI超神经
HyperAI超神经 · 2025-07-21T03:59:21Z
在 Amazon EKS 上使用 DeepSpeed 进行 Llama 2 分布式训练

近年来,深度学习模型日益复杂,单机训练效率低下。分布式训练技术可将负载分散到多台机器上,常用框架包括DeepSpeed和Horovod。本文介绍如何在亚马逊云上使用DeepSpeed进行Llama 2的分布式训练,涵盖环境搭建、Docker镜像构建及训练代码准备,以实现高效模型训练。

在 Amazon EKS 上使用 DeepSpeed 进行 Llama 2 分布式训练

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-06-24T08:25:25Z
2025年PyTorch的NN模块是什么?

PyTorch的nn.Module是构建神经网络的核心,提供参数封装、层次建模和自动微分等功能。到2025年,nn.Module将支持分布式训练和先进量化,简化模型管理。理解和应用这些模块对深度学习至关重要。

2025年PyTorch的NN模块是什么?

DEV Community
DEV Community · 2025-05-02T00:57:24Z

本研究提出Galvatron系统,自动识别大规模基础模型训练中的最佳混合策略,显著提升训练效率,优化分布式训练的简化与高效性。

Galvatron: An Automated Distributed System for Efficient Training of Large-Scale Foundation Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

大模型推动人工智能领域的分布式训练技术升级。飞桨框架3.0引入自动并行技术,简化开发流程,降低成本,支持多种并行策略,提升训练性能。开发者通过少量代码即可实现高效的分布式训练,显著提高开发效率和模型性能。

大模型训练代码开发再提效——3行代码就能实现分布式训练!飞桨框架3.0自动并行功能现已正式上线!

百度大脑
百度大脑 · 2025-04-22T11:46:08Z
火山如何应对大型语言模型训练和推理挑战

随着大型语言模型的普及,AI训练和推理需求激增,分布式训练变得至关重要。网络通信、资源分配和故障恢复等问题成为性能瓶颈。通过拓扑感知调度和细粒度故障恢复,可以优化资源管理,提高效率,支持大规模AI工作负载。

火山如何应对大型语言模型训练和推理挑战

The New Stack
The New Stack · 2025-04-01T16:30:01Z
介绍JobSet

JobSet是一个开源API,旨在为Kubernetes上的分布式机器学习训练和高性能计算提供统一接口。它解决了多模板Pod、作业组和Pod间通信等问题,支持大规模分布式训练,提高调度效率和资源管理。

介绍JobSet

Kubernetes Blog
Kubernetes Blog · 2025-03-23T00:00:00Z

DeepSeek 开源了适用于 MoE 模型的通信库 DeepEP,旨在提升训练和推理过程中的通信效率。该库支持快速数据交换、低延迟和高吞吐量,优化了 GPU 资源使用,适合大型模型的分布式训练。

DeepSeek开源周2/5:开源DeepEP专家并行通信库 解决MoE模型通信效率问题

蓝点网
蓝点网 · 2025-03-21T16:43:30Z
如何使用模型并行微调大型语言模型(LLM)

分布式训练是处理大规模机器学习模型的关键技术,尤其适用于大型语言模型。本文介绍了如何在Amazon SageMaker上使用p4d实例进行模型并行微调,包括环境设置、数据准备和训练过程。这些步骤能高效训练大型模型,适用于客户支持、语言翻译和情感分析等应用。

如何使用模型并行微调大型语言模型(LLM)

DEV Community
DEV Community · 2025-02-28T22:57:23Z

月之暗面团队改进了OpenAI的Muon优化器,使算力需求降低48%。新版本适用于更大模型,并验证了在分布式训练中的可行性。改进包括引入权重衰减和调整参数更新尺度,提升了训练效率和性能。

月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用

量子位
量子位 · 2025-02-23T09:31:33Z

本研究提出了一种分布式价值分解网络(DVDN),旨在解决部分可观测条件下的分布式训练问题。DVDN能够生成联合Q函数并将其分解为各个智能体的Q函数,适用于无法集中训练的场景。研究结果表明,DVDN在十个多智能体强化学习任务中表现出与集中训练相似的效果。

分布式价值分解网络与网络化智能体

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-11T00:00:00Z
一种新的人工智能训练方法通过连续参数流在64个GPU上实现90%的效率

一种名为Streaming DiLoCo的新方法通过重叠计算与通信,实现高效的分布式训练,减少训练时间并保持模型准确性,在64个GPU上达到了90%的效率。

一种新的人工智能训练方法通过连续参数流在64个GPU上实现90%的效率

DEV Community
DEV Community · 2025-02-01T06:45:36Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码