小红花·文摘

解锁高效模型部署：在 Amazon SageMaker HyperPod 上简化推理操作符设置

AWS Architecture Blog ·

使用Amazon SageMaker Hyperpod Cluster部署whisper模型

亚马逊AWS官方博客 ·

基于 Amazon SageMaker HyperPod 的 ComfyUI 部署方案

亚马逊AWS官方博客 ·

在 Amazon SageMaker HyperPod 上推出无检查点和弹性训练

亚马逊AWS官方博客 ·

基于 MIG 技术在 Amazon SageMaker HyperPod 上实现 GPU 虚拟化的最佳实践

亚马逊AWS官方博客 ·

AWS 一周综述：单 GPU P5 实例、Advanced Go 驱动程序、Amazon SageMaker HyperPod 等（2025 年 8 月 18 日）

亚马逊AWS官方博客 ·

利用全新的 Amazon SageMaker HyperPod 灵活训练计划，满足训练时间表和预算需求

亚马逊AWS官方博客 ·

通过新的 Amazon SageMaker HyperPod 任务治理服务，最大限度地提高模型开发的加速器利用率

亚马逊AWS官方博客 ·

使用全新 Amazon SageMaker HyperPod recipes 加快基础模型训练和微调

亚马逊AWS官方博客 ·

Amazon SageMaker HyperPod 是 AWS 的分布式训练功能，专为大规模 AI 模型设计。它优化基础设施，支持多节点和多 GPU 配置，实现高效并行处理和负载分配。HyperPod 提供自愈和故障容忍功能，自动监控和替换故障节点，确保训练不中断。用户无需手动配置，系统自动管理分布式基础设施，支持 EKS，适合训练大型基础模型和生成模型，利用混合精度和数据并行策略提高效率，减少训练时间和复杂性。

Serie GenAI: SageMaker HyperPod

DEV Community ·

Amazon SageMaker HyperPod 引入对 Amazon EKS 的支持

亚马逊AWS官方博客 ·

Amazon SageMaker HyperPod 存储设计与实践（二）

亚马逊AWS官方博客 ·

Amazon SageMaker HyperPod 存储设计与实践（一）

亚马逊AWS官方博客 ·

在 Amazon SageMaker HyperPod 上使用 LLaMA-Factory 轻松微调大模型

亚马逊AWS官方博客 ·

面向 GPU 服务器的 SageMaker 无痛使用指南（三）—SageMaker HyperPod 集群

亚马逊AWS官方博客 ·