内容提要
HAMi v2.9.0 正式发布,增强了异构设备的虚拟化和调度能力。新特性包括用户态虚拟化、生产就绪的 HAMi-DRA、增强的安全性和稳定性,以及对瀚博半导体设备的支持。HAMi-core 模式实现了显存与算力的细粒度共享,提升了资源利用率,已在招商银行验证。此外,该版本还更新了可观测性和安全性功能,推动了 DRA 生态联盟的发展。
关键要点
-
HAMi v2.9.0 正式发布,增强了异构设备的虚拟化和调度能力。
-
新特性包括用户态虚拟化、生产就绪的 HAMi-DRA、增强的安全性和稳定性,以及对瀚博半导体设备的支持。
-
HAMi-core 模式实现了显存与算力的细粒度共享,提升了资源利用率,已在招商银行验证。
-
HAMi-DRA 达到生产可用状态,支持 NVIDIA、Ascend 和 Enflame 三大平台。
-
新增对 Vastai 设备的支持,进一步丰富国产异构算力管理版图。
-
安全性方面,新增 DoS 防护和资源配额检查能力,修复了多个影响生产稳定性的关键问题。
-
DRA 生态联盟的成立旨在推动 DRA 标准化演进,降低异构设备接入的工程成本。
延伸解读
用户态切分的优势
HAMi v2.9.0 引入的用户态切分技术,允许在不修改业务代码的情况下实现显存与算力的细粒度共享。这种灵活性使得多个推理和训练任务可以同时高效运行,显著提升了资源利用率,尤其适合需要动态调整资源分配的场景。
DRA 生态联盟的意义
DRA 生态联盟的成立旨在推动 DRA 标准化进程,降低异构设备接入的工程成本。这对于设备厂商和用户来说,意味着更高的兼容性和更低的技术门槛,有助于加速 DRA 在实际应用中的落地。
安全性增强的重要性
在 HAMi v2.9.0 中,新增的 DoS 防护和资源配额检查能力显著提升了系统的安全性和稳定性。这些功能能够有效防止恶意攻击和资源滥用,确保生产环境的可靠性,尤其是在大规模集群中。
延伸问答
HAMi v2.9.0 的主要新特性是什么?
HAMi v2.9.0 增强了异构设备的虚拟化和调度能力,新增用户态虚拟化、生产就绪的 HAMi-DRA、安全性和稳定性增强,以及对瀚博半导体设备的支持。
HAMi-core 模式如何实现显存与算力的细粒度共享?
HAMi-core 模式通过 LD_PRELOAD 拦截应用程序对 ACL 的调用,实现显存 MB 级别和算力百分比级别的细粒度切分,无需修改业务代码。
HAMi-DRA 的生产就绪状态意味着什么?
HAMi-DRA 达到生产可用状态,支持 NVIDIA、Ascend 和 Enflame 三大平台,标志着其作为轻量版 HAMi 的独立实现项目的成熟。
HAMi v2.9.0 在安全性方面有哪些增强?
新版本新增 DoS 防护和资源配额检查能力,修复了多个影响生产稳定性的关键问题,提升了整体安全性和稳定性。
如何在 Kubernetes 中安装 HAMi-DRA?
可以通过克隆 HAMi-DRA 仓库并使用 Helm 安装,确保 Kubernetes 版本符合要求,并启用 DRA Consumable Capacity featuregate。
HAMi v2.9.0 对瀚博半导体设备的支持有什么意义?
新增对瀚博半导体设备的支持,进一步丰富了国产异构算力管理版图,增强了 HAMi 在国内市场的竞争力。