亚马逊AWS官方博客 ·

基于 HAMi 的 GPU 虚拟化实践

💡 原文中文，约11500字，阅读约需28分钟。

📝

内容提要

本文探讨了在Kubernetes环境中使用HAMi实现GPU资源的虚拟化与调度，以满足小模型和大模型对显存与算力的隔离需求。HAMi通过智能调度和资源管理，提高了GPU的利用效率，解决了Nvidia现有方案的不足之处。

🎯

🔎

随着AI和机器学习应用的普及，GPU资源的高效利用变得愈发重要。小模型和大模型对显存和算力的需求各异，传统的Nvidia方案在多租户环境下存在隔离性不足和资源利用率低的问题，因此探索新的虚拟化方案如HAMi显得尤为必要。

HAMi通过细粒度的资源管理和智能调度，能够有效满足小模型和大模型的显存隔离与算力共享需求。然而，在多任务并行情况下，HAMi的性能损耗约为18%，这意味着在高负载场景下仍需关注资源分配的效率与稳定性。

在基于EKS部署HAMi时，确保GPU节点正确标记为可管理状态是关键。此外，HAMi与Nvidia的设备插件不能共存，避免资源冲突是成功部署的前提。用户在配置时需根据项目需求合理设置显存和算力的分配策略。

❓

HAMi通过在Kubernetes调度层与GPU驱动层之间建立智能中间层，动态分配、隔离并调度GPU资源，满足用户对显存和算力的需求。

HAMi提供更细粒度的资源管理能力，能够实现显存隔离和算力共享，解决了Nvidia方案在多租户环境中的隔离性不足和资源利用率不高的问题。

小模型需要显存隔离和算力共享，而大模型则需要多卡支持和显存配额分配，HAMi能够根据这些需求进行动态资源分配。

HAMi的Pod调度过程包括请求拦截、调度逻辑和设备插件注入，确保Pod在合适的GPU上运行并提高集群利用效率。

测试结果显示，HAMi在多任务并行情况下对GPU资源管理的性能损耗约为18%。

在EKS环境中部署HAMi需要标记GPU节点、安装HAMi组件并配置相关参数，确保HAMi调度管理正常运行。

🏷️