亚马逊AWS官方博客 ·

使用 Karpenter 和 HAMi 实现 GPU 分片和动态扩缩容

💡 原文中文，约9100字，阅读约需22分钟。

📝

内容提要

现代AI和机器学习中的GPU资源管理面临挑战。结合Karpenter和HAMi可实现GPU资源的细粒度分片和动态扩缩容，从而提高资源利用率，降低成本，适用于AI训练和科学计算等场景。

🎯

❓

Karpenter 是一种 Kubernetes 节点自动扩缩容解决方案，而 HAMi 是异构 AI 计算虚拟化中间件，二者结合可实现 GPU 资源的细粒度分片和动态扩缩容。

结合 Karpenter 和 HAMi 可以显著提升 GPU 资源利用率，降低成本，并简化运维工作。

Karpenter 通过快速响应扩容需求、智能选择实例类型和基于实际工作负载进行节点规格选择来优化 GPU 资源管理。

HAMi 通过将单个 GPU 分割为多个虚拟 GPU，支持细粒度的内存和计算核心分配，从而提高 GPU 利用率。

扩缩容过程中可能遇到资源不匹配和状态异常的问题，例如 NodeClaim 状态异常和扩容失败。

该方案适用于 AI/ML 模型训练、科学计算、图形渲染和数据分析等需要大量 GPU 资源的场景。

🏷️

在 Amazon EKS 上使用 NVIDIA GPU Operator 管理自定义 GPU 驱动与 CUDA 工作负载
在Amazon EKS上，使用NVIDIA GPU Operator可以有效管理自定义GPU驱动和CUDA工作负载。EKS通过EC2节点支持GPU工作负载...
一起看比赛的超低延迟直播 + 实时解说连麦 + 高并发弹幕的工程方案
本文探讨了“一起看比赛”的技术方案，强调低延迟的重要性。比赛直播需确保观众同步看到进球，避免剧透。采用超低延迟直播（600ms~1s）和RTC解说连麦，结...
云台相机 2026 大乱斗，它到底怎么来的，又去往哪里？｜硬哲学
2016年，苹果发布AirPods，开启了TWS耳机热潮。2018年，大疆推出Osmo Pocket云台相机，改变了手持摄影市场。尽管初期反响平平，但其便...
用 Amazon Quick 加速日常数据工作
Amazon Quick 是一款企业办公助手，利用自然语言处理技术提升数据处理效率。用户只需描述需求，Quick 即可自动分析、生成报告和执行工作流程，适...
Article: Two Misconfigurations That Caused Spark OOM Failures on Kubernetes
After migrating Spark pipelines to Azure Kubernetes Service, two infrastructu...
小车车里的大世界：车模收藏入坑指南
作者分享了与汽车模型的缘分，从小学时购买第一辆保时捷卡宴模型开始，逐渐深入了解与收藏车模。文章介绍了1:18、1:43和1:64等不同比例车模的特点，强调...