HAMi v2.9.0 深度解读:昇腾用户态切分、DRA 生产就绪与调度生态扩展

HAMi v2.9.0 深度解读:昇腾用户态切分、DRA 生产就绪与调度生态扩展

💡 原文中文,约11400字,阅读约需28分钟。
📝

内容提要

HAMi v2.9.0 正式发布,增强了异构设备的虚拟化和调度能力。新特性包括用户态虚拟化、生产就绪的 HAMi-DRA、增强的安全性和稳定性,以及对瀚博半导体设备的支持。HAMi-core 模式实现了显存与算力的细粒度共享,提升了资源利用率,已在招商银行验证。此外,该版本还更新了可观测性和安全性功能,推动了 DRA 生态联盟的发展。

🎯

关键要点

  • HAMi v2.9.0 正式发布,增强了异构设备的虚拟化和调度能力。

  • 新特性包括用户态虚拟化、生产就绪的 HAMi-DRA、增强的安全性和稳定性,以及对瀚博半导体设备的支持。

  • HAMi-core 模式实现了显存与算力的细粒度共享,提升了资源利用率,已在招商银行验证。

  • HAMi-DRA 达到生产可用状态,支持 NVIDIA、Ascend 和 Enflame 三大平台。

  • 新增对 Vastai 设备的支持,进一步丰富国产异构算力管理版图。

  • 安全性方面,新增 DoS 防护和资源配额检查能力,修复了多个影响生产稳定性的关键问题。

  • DRA 生态联盟的成立旨在推动 DRA 标准化演进,降低异构设备接入的工程成本。

延伸问答

HAMi v2.9.0 的主要新特性是什么?

HAMi v2.9.0 增强了异构设备的虚拟化和调度能力,新增用户态虚拟化、生产就绪的 HAMi-DRA、安全性和稳定性增强,以及对瀚博半导体设备的支持。

HAMi-core 模式如何实现显存与算力的细粒度共享?

HAMi-core 模式通过 LD_PRELOAD 拦截应用程序对 ACL 的调用,实现显存 MB 级别和算力百分比级别的细粒度切分,无需修改业务代码。

HAMi-DRA 的生产就绪状态意味着什么?

HAMi-DRA 达到生产可用状态,支持 NVIDIA、Ascend 和 Enflame 三大平台,标志着其作为轻量版 HAMi 的独立实现项目的成熟。

HAMi v2.9.0 在安全性方面有哪些增强?

新版本新增 DoS 防护和资源配额检查能力,修复了多个影响生产稳定性的关键问题,提升了整体安全性和稳定性。

如何在 Kubernetes 中安装 HAMi-DRA?

可以通过克隆 HAMi-DRA 仓库并使用 Helm 安装,确保 Kubernetes 版本符合要求,并启用 DRA Consumable Capacity featuregate。

HAMi v2.9.0 对瀚博半导体设备的支持有什么意义?

新增对瀚博半导体设备的支持,进一步丰富了国产异构算力管理版图,增强了 HAMi 在国内市场的竞争力。

🏷️

标签

➡️

继续阅读