亚马逊AWS官方博客 ·

基于 HAMi 的 GPU 虚拟化实践

💡 原文中文，约11500字，阅读约需28分钟。

📝

内容提要

本文探讨了在Kubernetes环境中使用HAMi实现GPU资源的虚拟化与调度，以满足小模型和大模型对显存与算力的隔离需求。HAMi通过智能调度和资源管理，提高了GPU的利用效率，解决了Nvidia现有方案的不足之处。

🎯

关键要点

本文探讨在Kubernetes环境中使用HAMi实现GPU资源的虚拟化与调度。
HAMi满足小模型和大模型对显存与算力的隔离需求，提高GPU利用效率。
项目旨在基于Kubernetes构建GPU资源申请与管理平台，实现GPU算力共享与显存隔离。
小模型部署需要显存隔离和算力共享，大模型部署需要多卡支持和显存配额分配。
Nvidia的主流GPU虚拟化方案存在隔离性不足、资源利用率不高等问题。
HAMi是开源的GPU虚拟化与调度系统，提供细粒度的GPU资源管理能力。
HAMi通过智能调度和资源管理，动态分配、隔离并调度GPU资源。
HAMi的Pod调度过程包括请求拦截、调度逻辑和设备插件注入。
HAMi Core通过LD_PRELOAD机制实现对CUDA API的拦截，确保资源隔离。
基于EKS的HAMi部署实践包括组件安装和实际场景部署。
HAMi支持小模型和大模型的显存隔离与算力共享，提升GPU利用效率。
测试结果显示，HAMi在多任务并行情况下对GPU资源管理的性能损耗约为18%。
HAMi是一种在可控开销下提升资源利用率的实用折中方案。

🏷️

继续阅读

Kubernetes的自我修复是如何工作的？通过破坏真实集群来理解自我修复
本文介绍了KubeLab，一个开源实验室，模拟七种故障以观察Kubernetes的自我修复能力。通过实际操作，用户将学习识别和处理生产环境中的故障模式。
文章：读-复制-更新（RCU）：无锁性能的秘密
RCU（读-复制-更新）通过消除读取路径中的锁开销，实现比传统锁高出十到三十倍的读取性能，适用于读多写少的场景。其三阶段模式允许读者无锁访问数据，写者则复...
技术速递｜构建双 Sidecar Pod：在 Kubernetes 上将 GitHub Copilot SDK 与 Skill Server 相结合
本文探讨了如何利用Kubernetes的Sidecar模式构建云原生AI博客生成智能体，通过将GitHub Copilot SDK和技能管理部署为Side...
如何在生产工作负载中使用 Docker Compose — 配置文件、监控模式和 GPU 支持
Docker Compose 近年来更新显著，新增配置文件、监控模式和GPU支持，使其适用于复杂部署场景。通过配置文件管理环境、监控模式加速开发及健康检查...
权威发布 | 绿盟科技参编工业和信息化蓝皮书，以实践书写工控安全新答卷
绿盟科技推出“风云卫”大模型，致力于构建智能安全屏障，推动“AI+安全”生态，提升威胁检测效率60%。同时，公司建立了大模型安全治理框架，确保AI技术在关...
鹅厂门口免费装龙虾，几百人排爆了！一代人有一代人的鸡蛋要领
鹅厂门口免费安装OpenClaw，吸引了众多参与者，包括程序员和学生，现场气氛热烈。OpenClaw因其便捷性和强大功能迅速走红，开发者数量激增，显示出大众对AI的热情。

基于 HAMi 的 GPU 虚拟化实践

内容提要

关键要点

标签

继续阅读